빅데이터 이론/분석 Part2

K-MOOC 빅데이터 강의노트

Posted by 옐란 on 2021-04-02

[온라인 강좌 강의노트]

목차

1
2
3
4
5
6
7
5. 군집분석
6. 연관규칙
7. 회귀분석과 예측
8. 기계학습과 인공신경망
9. 기계학습과 의사결정나무
10. 텍스트 분석 기법
11. 데이터 시각화의 원리

5주차

  • 데이터 군집화 방법

군집분석이란?

  • 정의: 유사한 특성을 가진 데이터 집단으로 그룹화하는 기법
  • 구분: 자율학습(목표 변수가 없음), 비지도 학습에 해당
  • 목표: 데이터 이해를 돕기위해, 특성 값이 유사한 레코드들의 모임으로 세분화
  • 유형: 계층적 클러스터링(Single Linkage method?), 비계층적(K-means), 모델기반(Kohonen network)

계층적 병합 군집화

  • N개의 군집 시작 -> 가장 근접한 2개의 레코드를 군집 병합 -> 매 단계에서 가장 거리가 짧은 2개 군집 병합
  • 레코드간의 거리 측정: 유클리드 거리, 만하탄 거리,
  • 군집간의 거리 측정: 최단거리/최대거리/평균거리/중심거리 등
  • 단일(최단) 연결법(Single Linkage method)
    : 각 군집에 속하는 임의의 두 개체들 사이의 거리중 최단거리로 정의하여 유사성이 큰 군집을 묶어나가는 방법
  • 계층적 군집화의 장단점:
    : (장점) 군집의 수 명시 필요없음, 군집화가 자동수행, 덴드로그램 도출 이해용이
    : (단점) 데이터가 클 경우 거리행열 계산 부담, 극단치에 민감, 비안정성(데이터 재구성시 상이한 결과 나타날수 있음)

비계층적 군집분석

  • 원하는 군집의 수(K)를 사전에 명시하고, 군집들 내부의 분산을 최소화하도록 각 사례를 K개의 군집중 하나에 할당하는 기법
  • ex: k-means
  • 절차: 클러스터링 수 K결정 -> 최초 군집 기준값 결정-> 군집분류-> 군집 기준값 설정->군집재분류<->군집기준값변경->최종 클러스터 도출

군집분석의 장단점 및 활용

  • 장점: 데이터에 대한 사전 지식 필요없음, 모든 형태의 데이터에 적용가능
  • 단점: 각 변수에 대한 가중치를 결정하거나 거리 정의 방법에 따라 결과 차이 가능, 초기 클러스터 수에 민감, 결과 해석 어려움
  • 활용
    : (데이터 이해제고) 데이터 마이닝 초기작업에 유용, 세부집단 지식 없어서 전체 이해 하기 어려운 경우 탐색가능
    : 텍스트 마이닝 적용시, 유사 문서 군집화 유용
    : 마케팅의 고객 세분화 등 다양한 분양에 적용

실습1~2

  • 보험청구 데이터 유사그룹 생성, 보험사기 정보 활용 분류모형 구축
    : (독립변수) 신고장소, 경찰신고접수, 청구타입, 청구금액, 총결찰 신고접수, (목적변수) 사기여부

6주차

연관관계 분석이란?

연관관계 분석이란?

  • 대용량으 데이터로부터 규칙을 찾아내는 기법
  • 장바구니 분석(구매 물품사이의 관계를 알아본다)
  • 연관성이 많은 상품들을 그룹화하는 클러스터링의 일종

연관규칙의 도출

  • if A then B 형태의 규칙으로 표시
  • 후보 규칙 생성

연관 규칙 분석의 예

  • 식료품점 판매 물품들에 대해 생성된 연관규칙을 그래프로 나나탠 분석결과

연관 규칙 예측력의 측정

  • 빈도수 기반으로 연관정도를 정량하 화기 위한 지표: 지지도/신뢰도/향상도

지지도(support)

  • Pr(A and B): 전체 거래중 A와 B를 포함하는 거래의 비율
  • 산식: support = A와 B를 포함하는 거래수 / 전체 거래수
  • 전체적인 거래 규모에 대한 값, 값이 클수록 자주 발생하는 거래, 규칙의 중요성에 대한 척도

신뢰도(Confidence)

  • 정의: Pr(B|A) = Pr(A&B)/P(A)
  • 산식: A와 B를 포함하는 거래수/A의 포함 거래수
  • X를 구매한 경우, 이중에서 얼마나 항목 Y를 구매로 이어지는지를 의미
  • 값이 클수록 X구매시 Y구매율이 높음
  • 규칙의 신뢰성에 대한 척도

향상도(Lift)

  • 졍의: Pr(B/A)/Pr(B) = Pr(A&B) / Pr(A)Pr(B)
  • 산식: Lift = (“A”->”B” 발생 확률)/(A발생확률)(B발생확률)
  • 연관규칙이 임의 추측보다 얼마나 더 예측력을 갖는지 평가
  • 일반적으로 리프트값이 1보다 크면 예측력이 있다고 간주

연관과계 실습1~3

  • 문제: 장바구니 분석
  • 변수: 고객ID, 지불금액, 지불방법, 성별, 주택소유 여부, 수입, 나이, 채소과일

Week7

  • 회귀분석과 예측

회귀분석이란