본문 바로가기

춤추는 프로그래머/Big Data

데이터 마이닝


데이터마이닝: 대용량의 데이터로부터 이들 데이터내에 존재하는 관계,
  패턴, 규칙 등을 탐색하고 찾아내어 모형화 함으로써 유용한
  지식을 추출하는 일련의 과정들

 

 

데이터 마이닝 기법

 


1. Decision Tree : 과거 수집된 데이터를 분석하여 이들간 존재 패턴,부류별 특성 조합
2. 신경망        : 인간이 경험으로부터 학습해가는 두뇌의 신경망 활동을 모사하여
                   자신이 가진 데이터로부터 학습 과정을 찾아냄, 예측에 유용
3. 동시발생메트릭스: 존재하는 항목간 연관관계 발견
                     연관관계 규칙: 지지도,향상도,신뢰도
4. 클러스터링    : 어떤 목적 변수(Target)을 예측하기 보다는 고객수입.연령 같은 특성이
                   비슷한 고객을 묶어 몇 개의 의미 있는 군집으로 나눔.

 

 

데이터 마이닝과 OLAP 과의 비교

 


        데이터마이닝               OLAP


목적     숨겨진 지식 발견           다차원 질의로 요약 정보 조회
사용자   분석가 활용                초보 사용자, 비 전문가
분석정보  미래 예측 정보             과거 요약 정보

 

'춤추는 프로그래머 > Big Data' 카테고리의 다른 글

pscp 사용법  (0) 2013.06.14
java.lang.NoClassDefFoundError  (0) 2013.06.12
Indexing and Searching on a HDFS  (0) 2013.06.12
하둡 에코 시스템(Hadoop ECO system)  (0) 2013.01.04
스크랩  (0) 2013.01.04