데이터마이닝: 대용량의 데이터로부터 이들 데이터내에 존재하는 관계,
패턴, 규칙 등을 탐색하고 찾아내어 모형화 함으로써 유용한
지식을 추출하는 일련의 과정들
데이터 마이닝 기법
1. Decision Tree : 과거 수집된 데이터를 분석하여 이들간 존재 패턴,부류별 특성 조합
2. 신경망 : 인간이 경험으로부터 학습해가는 두뇌의 신경망 활동을 모사하여
자신이 가진 데이터로부터 학습 과정을 찾아냄, 예측에 유용
3. 동시발생메트릭스: 존재하는 항목간 연관관계 발견
연관관계 규칙: 지지도,향상도,신뢰도
4. 클러스터링 : 어떤 목적 변수(Target)을 예측하기 보다는 고객수입.연령 같은 특성이
비슷한 고객을 묶어 몇 개의 의미 있는 군집으로 나눔.
데이터 마이닝과 OLAP 과의 비교
데이터마이닝 OLAP
목적 숨겨진 지식 발견 다차원 질의로 요약 정보 조회
사용자 분석가 활용 초보 사용자, 비 전문가
분석정보 미래 예측 정보 과거 요약 정보
'춤추는 프로그래머 > Big Data' 카테고리의 다른 글
pscp 사용법 (0) | 2013.06.14 |
---|---|
java.lang.NoClassDefFoundError (0) | 2013.06.12 |
Indexing and Searching on a HDFS (0) | 2013.06.12 |
하둡 에코 시스템(Hadoop ECO system) (0) | 2013.01.04 |
스크랩 (0) | 2013.01.04 |