12
10월RapidMiner에 대한 이해
RapidMiner 소개
RapidMiner는 데이터분석자가 예측적 데이터 분석을 쉽게 수행할 수 있도록 지원하는 분석 소프트웨어이다. 도르트문트 대학의 연구진에 의해 2001년 YALE(Yet Another Learning Environment)라는 이름으로 최초로 개발되어 2007년 RapidMiner로 이름이 변경되었다.
Self Service Data Analysis 를 위한 최적화 된 솔루션으로 분석을 위한 다양한 기능과 알고리즘들을 GUI 방식으로 구현 할 수 있어 누구나 내가 가진 데이터에서 숨어 있는 가치를 찾아 낼 수 있다. 현재 국내보다는 해외에서 많이 사용되고 있기 때문에 국내에서는 아직 활발한 움직임을 보이고 있지 않지만, 사용자들이 늘어나고 사람들이 가지고 있는 정보를 함께 공유한다면, 공신력있고 인정받는 Tool이 될 가능성이 높다.
RapidMiner는 Drag & Drop만으로 프로그래밍없이 분류와 패턴 발견 등의 복잡한 분석을 할 수 있어 분석 초보자부터 숙련자까지 폭넓게 지원한다. 장점으로, 산점도와 히스토그램, 상자 그림, 히트 맵 등의 시각화 기능을 풍부하게 갖추고 있다.
사용자 인터페이스와 기본 동작
RapidMiner 인터페이스는 디자인(Design) 뷰와 결과(Results) 뷰, 전처리 도구(Turbo Prep) 뷰, 오토 모델(Auto Model)뷰 로 구성되며 각 뷰는 여러 패널로 구성된다. 디자인 뷰는 오퍼레이터(Operators), 프로세스(Process), 저장소(Repository), 파라미터(Parameteres), 도움말(Help) 패널로 구성된다.
디자인 뷰
디자인(Design) 뷰에서는 사용자가 오퍼레이터를 통해 분석 프로세스를 구성할 수 있다. 파라미터 패널을 통해 각 오퍼레이터별로 설정 값을 변경할 수 있으며, 저장소 패널에서 저장한 프로세스와 데이터를 확인할 수 있다.
오퍼레이터 패널
오퍼레이터 패널은 분석 프로세스 설계에 필요한 오퍼레이터를 트리 형태로 보여주며, 분석가는 트리 구조를 따라 자유롭게 오퍼레이터를 볼 수 있고, 원하는 오퍼레이터를 Drag&Drop을 통해 프로세스 패널에 추가할 수 있다. 만약 특별한 문제를 해결하기 위해 개발된 확장 패키지(ex: Text Analysis)가 RapidMiner에 설치되어 있다면, 추가적인 오퍼레이터도 여기에서 볼 수 있다.
각 오퍼레이터는 상단에 이름을 갖고 여러 개의 입력 포트와 출력 포트를 갖는다. 오퍼레이터 별로 입·출력 포트의 개수는 상이하다.
프로세스 패널
프로세스 패널은 분석 프로세스에서 사용되는 오퍼레이터와 그들 간의 연관관계를 보여준다. 오퍼레이터 패널에서 Drag&Drop 또는 검색을 통해 추가된 오퍼레이터는 사용자가 원하는 분석 프로세스 설계를 통해 복사, 붙여넣기, 삭제 기능을 사용할 수 있다.
프로세스 패널 구성 예시
파라미터 패널
파라미터 패널에서는 오퍼레이터 별 설정 값을 확인하고 변경할 수 있다. 프로세스 패널에서 오퍼레이터를 선택하면 해당 오퍼레이터의 설정 값(Parameters)이 파라미터 패널에 표시된다.
파라미터 패널 구성 예시
‘Decision Tree’ 오퍼레이터를 선택했을 때 표시되는 파라미터를 보여준다.
각각의 오퍼레이터는 상이한 기능을 하므로 파라미터 또한 다르게 표시되며 개별적인 파라미터 값을 설정해줄 수 있다.
도움말 패널
도움말 패널은 파라미터 패널과 유사하게 오퍼레이터 별 도움말을 확인할 수 있다. 프로세스 패널에서 오퍼레이터를 선택하면 해당 오퍼레이터에 대한 기능 등에 대한 설명을 확인할 수 있다.
결과 뷰
결과(Results) 뷰는 디자인 뷰의 프로세스 패널에서 구성한 오퍼레이터들이 모두 실행된 결과가 출력되는 뷰이다. 사용자가 구성한 분석 프로세스의 결과를 확인하는 뷰로, 모든 분석 결과들은 결과 뷰에서 확인할 수 있다.
디자인 뷰에서 설계한 프로세스를 실행했을 때 표시되는 결과의 예시를 나타낸다. 상단 탭을 보면 각 오퍼레이터별 결과로 구성된 것을 확인할 수 있다. 각각의 탭을 눌러 오퍼레이터별 실행 결과를 모두 확인할 수 있다.
Leave A Comment