[온라인 강좌 강의노트]
- K-MOOC 강좌명: [집콕]빅데이터의 세계, 원리와 응용
- 빅데이터 이론/분석 Part1
- 진척률(2021.04.17): 10%
목차
1 | 5. 군집분석 |
5주차
- 데이터 군집화 방법
군집분석이란?
- 정의: 유사한 특성을 가진 데이터 집단으로 그룹화하는 기법
- 구분: 자율학습(목표 변수가 없음), 비지도 학습에 해당
- 목표: 데이터 이해를 돕기위해, 특성 값이 유사한 레코드들의 모임으로 세분화
- 유형: 계층적 클러스터링(Single Linkage method?), 비계층적(K-means), 모델기반(Kohonen network)
계층적 병합 군집화
- N개의 군집 시작 -> 가장 근접한 2개의 레코드를 군집 병합 -> 매 단계에서 가장 거리가 짧은 2개 군집 병합
- 레코드간의 거리 측정: 유클리드 거리, 만하탄 거리,
- 군집간의 거리 측정: 최단거리/최대거리/평균거리/중심거리 등
- 단일(최단) 연결법(Single Linkage method)
: 각 군집에 속하는 임의의 두 개체들 사이의 거리중 최단거리로 정의하여 유사성이 큰 군집을 묶어나가는 방법 - 계층적 군집화의 장단점:
: (장점) 군집의 수 명시 필요없음, 군집화가 자동수행, 덴드로그램 도출 이해용이
: (단점) 데이터가 클 경우 거리행열 계산 부담, 극단치에 민감, 비안정성(데이터 재구성시 상이한 결과 나타날수 있음)
비계층적 군집분석
- 원하는 군집의 수(K)를 사전에 명시하고, 군집들 내부의 분산을 최소화하도록 각 사례를 K개의 군집중 하나에 할당하는 기법
- ex: k-means
- 절차: 클러스터링 수 K결정 -> 최초 군집 기준값 결정-> 군집분류-> 군집 기준값 설정->군집재분류<->군집기준값변경->최종 클러스터 도출
군집분석의 장단점 및 활용
- 장점: 데이터에 대한 사전 지식 필요없음, 모든 형태의 데이터에 적용가능
- 단점: 각 변수에 대한 가중치를 결정하거나 거리 정의 방법에 따라 결과 차이 가능, 초기 클러스터 수에 민감, 결과 해석 어려움
- 활용
: (데이터 이해제고) 데이터 마이닝 초기작업에 유용, 세부집단 지식 없어서 전체 이해 하기 어려운 경우 탐색가능
: 텍스트 마이닝 적용시, 유사 문서 군집화 유용
: 마케팅의 고객 세분화 등 다양한 분양에 적용
실습1~2
- 보험청구 데이터 유사그룹 생성, 보험사기 정보 활용 분류모형 구축
: (독립변수) 신고장소, 경찰신고접수, 청구타입, 청구금액, 총결찰 신고접수, (목적변수) 사기여부
6주차
연관관계 분석이란?
연관관계 분석이란?
- 대용량으 데이터로부터 규칙을 찾아내는 기법
- 장바구니 분석(구매 물품사이의 관계를 알아본다)
- 연관성이 많은 상품들을 그룹화하는 클러스터링의 일종
연관규칙의 도출
- if A then B 형태의 규칙으로 표시
- 후보 규칙 생성
연관 규칙 분석의 예
- 식료품점 판매 물품들에 대해 생성된 연관규칙을 그래프로 나나탠 분석결과
연관 규칙 예측력의 측정
- 빈도수 기반으로 연관정도를 정량하 화기 위한 지표: 지지도/신뢰도/향상도
지지도(support)
- Pr(A and B): 전체 거래중 A와 B를 포함하는 거래의 비율
- 산식: support = A와 B를 포함하는 거래수 / 전체 거래수
- 전체적인 거래 규모에 대한 값, 값이 클수록 자주 발생하는 거래, 규칙의 중요성에 대한 척도
신뢰도(Confidence)
- 정의: Pr(B|A) = Pr(A&B)/P(A)
- 산식: A와 B를 포함하는 거래수/A의 포함 거래수
- X를 구매한 경우, 이중에서 얼마나 항목 Y를 구매로 이어지는지를 의미
- 값이 클수록 X구매시 Y구매율이 높음
- 규칙의 신뢰성에 대한 척도
향상도(Lift)
- 졍의: Pr(B/A)/Pr(B) = Pr(A&B) / Pr(A)Pr(B)
- 산식: Lift = (“A”->”B” 발생 확률)/(A발생확률)(B발생확률)
- 연관규칙이 임의 추측보다 얼마나 더 예측력을 갖는지 평가
- 일반적으로 리프트값이 1보다 크면 예측력이 있다고 간주
연관과계 실습1~3
- 문제: 장바구니 분석
- 변수: 고객ID, 지불금액, 지불방법, 성별, 주택소유 여부, 수입, 나이, 채소과일
Week7
- 회귀분석과 예측