빅데이터-이론-분석-Part1

K-MOOC 빅데이터 강의노트

Posted by 옐란 on 2021-03-16

[온라인 강좌 강의노트]

  • K-MOOC 강좌명: [집콕]빅데이터의 세계, 원리와 응용

1주차

빅데이터란

  • 빅데이터 분석: 귀납적(경험->정보)
  • 비즈니스 인텔리젠스(1990년대말): 데이터->기업정보활용
    : 데이터웨어하우스/OLAP, 데이터 마이닝
  • 데이터 분석과정
    : 데이터확인>수집>저장(Hadoop,NoSQL)>처리>분석(통계,마이닝)>표현

빅데이터 주요특징

  • 기술적요소/전략적요소/인적요소
  • 기술적요소: 데이터(정형/비정형), 수집/처리/저장, 분석/지식추출
  • 전략적요소: 디지털 transformation>Data Technology 활용기획>빅데이터 분석 활용기회탐색>활용시나리오 도출
  • 인적요소: CDC(Chief Data Officer), Data Scientists, 빅데이터 팀, 교육

빅데이터와 인공지능

  • 귀납(사례,데이터분석)에 의한 지식획득 가능성(빅데이터)->딥러닝 학습

빅데이터가 제공하는 기회

  • 의사결정의 질 제고, 운영효율 제고, 새로운 가치 창출(BM발굴)

데이터 분석과정

  • 데이터(Source인식) > 수집(ETL,클롤링) > 저장(Hadoop,NoSQL) > 처리 > 분석(통계,마이닝,머신러닝) > 표현(가시화)

2주차

빅데이터 활용의 핵심 성공요인

  • 분석을 위한 기획능력 필요
  • 분석 시나리오 수립이 어려운 이유: 도메인 지식부족, 수집/저장/분석 기술능력 부족, 어떤 결과가 도출가능한지 이해부족
  • 기획능력 향상방법: 요소기술 이해, 가치에 대한 인식, 성공사례 분석

활용사례 1

  • 독감예보 서비스(구글 검색어 빅데이터로 예측)
    : 어떤 데이터: 검색어 조회수
    : 어떻게 분석: 빈도를 계산
    : 어떤 가치 제공: 독감 예보
  • SNS를 활용한 영화 흥행 수익 예측
    : 어떤 데이터: SNS상의 비정형 Text 데이터
    : 어떻게 분석: 텍스 마이닝(감정분석, 오피니언 분석)
    : 어떤 가체 제공: 경영/투자자의 의사결정 자료
  • 빅데이터 분석을 통한 심야버스 노선 정책지원
    : 어떤 데이터: 서울시민 전화통화 기록
    : 어떻게 분석: 기술통계(평균,표준편차,빈도)
    : 어떤 가치: 시민편익, 수익보장
  • 빅데이터 기반 고객의 소리분석 시스템을 통한 서비스 혁신
    : 어떤 데이터: 고객 음성 데이터(STT:speech to text)
    : 어떻게 : 텍스트 마이닝
    : 어떤 가치: 고객 중심 경영

활용사례 2

  • 데이터 마이닝을 활용한 신용평가 시스템 구축 (국민은행)
    : (생각1) 기업의 재무제표 지표값과 회사의 부도여부 간의 상관성
    : (생각2) 부도난 회사의 패턴을 머신러닝으로 모델링(부도패턴 예측) -> 부도예측시스템 구축
    : 어떤 데이터: 기업 데이터(재무, 비재무)
    : 어떻게 분석: 통계기법, 인공지능 기법 모형구축
    : 어떤 가치 제공: 기업 심사비용 감축, 의사 결정 지원
  • 빅데이터 분석을 활용한 감사정보 시스템 구축
  • 빅데이터 분석을 활용한 탈세 및 범죄 예방시스템 구축
    : 어떤 데이터: 납세,SNS데이터
    : 어떻게 분석: 데이터 마이닝, 사회연결망 분석
    : 어떤 가치 제공: 재정 수입에 기여, 탈세 예방 효과

빅데이터 분석 기획1,2

  • 문제해결 > 목표와 방법 > 확보계획
  • 분석 기획 목적:
    : 분석대상 발굴 및 구체화, 확보 역량, 분석역량, 운영관리 체계 정규화, 의사결정문화 정착
    : 데이터/분석역량/프로세스/문화/ICT 거버넌스등 전반에 걸친 해결방안 수립
  • 분석 기획의 단계: 분석기회 발굴 => 분석기회 구체화 => 마스터 플랜 수립
    : 분석 기회 발굴: 문제 정의/필요성/목표 정의
    : 분석 기회 구체화: 목표달성 방법 구체화, 수행절차 적용방법/기술 정의
    : 마스터 플랜수립: 로드맵/일정계획, 분석 거버넌스 체계 필요
  • 분석 기회발굴: 톱다운(전사비즈모델분석), 바틈업(대상프로세스선정/분석), 벤치마킹
  • 분석 기회 구체화: 분석 체계/과정 구체화, 활용시나리오 구체적 정의
    : 분석기회 구조화: 묵표가치, 유저스토리 형식 정의, 목표가치 지표화, 분석질문 정의
    : 분석방안 구체화: 체계/과정 구체화, 전체분석세트 및 관계도출, 데이터 정의 분석 경제성 평가
    : 활용시나리오정의: 프로세스 지능화/변화 발생
  • 마스터 플랜 수립: 전략적 우선순위, 로드맵 수립(우선순위 평가, 분석적용 범위/방식 고려)
    : 분석 과제 우선순위 평가: 중요도, 경제성(ROI), 실행용이성 고려
    : 단계적 구현 로드맵 수립:
    : 일정계획: 세부 일정

3주차

분석을 위한 데이터들

  • 정형 데이터: 고정된 필드에 저장된 데이터, 설계자에 의해 형태가 정해짐
  • 비정형 데이터: 문서/그림/영상…
  • 분석대상 데이터의 예
    : 텍스트분석->핵심단어, 주요토픽/이슈, 감정(긍정/부정)
    : 웹: Html>Tagging>분석
    : SNS: 사용자반응<–게시글 크롤링
    : 로그데이터: 방문시간/횟수/접근정보/관심상품…
    : 센서데이터/사진(이미지)/동영상

빅데이터의 수집

  • 데이터수집: 데이터소스 데이터 자동수집, 저장/변환/통합
  • 수집과정의 중요성: 정확한 데이터가 필요/분석목적 고려
  • 내부데이터/외부데이터
  • 수집방법(ETL) : 수집/변환/적재
  • 외부 데이터 수집방법: 크롤링(스크래핑)- Textom,

(데이터 저장) 데이터베이스란

(데이터 저장) 데이터모델링이란(E-R모델링)

(데이터 분석) 데이터 웨어하우스란?

  • DW: DB(응용프로그램목적), DW(적절한조합->지식변환 목적->의사결정지원)
  • DW정의: 주제중심/통합/시간성/비휘발성 자료 집합
  • DW특징: 주제/데이터중심, 비휘발성(읽기중심), 시간성(역사성)
  • 데이터 마트(Mart):
    : 데이터 웨어하우스와 사용자 사이의 중간층에 위치
    : 하나의 주제 하나의 부서 중심 DW
    : DW가 도매상이면, DT는 소매상
    : DW->DT로 데이터 복제
  • 구성
    : 운영/보관data -> 자료 추출/변환 -> 메타데이터<-> DW->DT -> 분석도구/OLAP

OLAP(On-Line Analytical Processing)

  • 다차원 데이터 구조를 이용하여 다차원의 복잡한 질의를 고속으로 처리하는 데이터 분석기술
  • 온라인 분석처리의 구성요소 : 드립 다운(Drill down)/드립 업,

빅데이터와 비정형 데이터베이스(1)

  • 분산시스템 필요, 비정형 데이터베이스(NoSQL, Hadoop)
  • CAP이론(Consistency-일관성, Availability-가용성, Partiton Tolerance-지속성) 불가능
    : CAP중 두개를 선택하고 하나를 포기(RDB-C/A, 비정형-P/A, P/C)
  • NoSQL(Not-Only SQL or NoSQL)
    : 규마 확장성, 분산저장, 대용량 구조/반구조적 저장 용이(MongoDB…)
    : key-val(레디스,캐시..), 컬럼(H베이스..), 도큐먼트(몽고DB..), 그래프(Neo4J..)
  • NoSQL 특징: 스키마 없음, 저장방식(값,컬럼,문서,그래프), 탄력성, 부하분산용이, 조회용이

비정형 데이터베이스(2)

  • 하둡(Hadoop)이란? : 대용량 데이터의 분산 저장과 처리가 가능한 자바 기반 오픈소스 프레임워크
    : 여러개의 컴퓨터를 묶어서 하나의 시스템으로 처리
    : 하둡 파일 시스템(HDFS), 맵리듀스(분산된 서버 자원으로 쉽게 분석)
  • 데이터 > 맵리듀스(분석처리) > HDFS
  • 주요특징: 대용량 처리에 적합, 클라우드 환경 적합, 장애의 대비, 저렴한 구축비용
  • 구성요소: 파일시스템(HDFS, 64M~128M단위 분산저장/복제/클러스터), 맵리듀스(분산처리계산)

4주차

데이터분석

  • 데이터 분석 유형
    : Descriptive Analysis: 현재상황 이해/사실 파악
    : Diagnostic Analysis : 현재상황 이해/원인파악
    : Predictive Analysis: 미래, 또는 결과에 대한 예측
    : Prescriptibe Analsis: 해결방안 도축
  • Descriptive 방식: 데이터 요약/정보생성, 사실이해/현황파악, 의사결정 지원
    : 기술통계, 군집화, 연관규칙,
  • Predictive 방식: 예측모형, 미래/미지의 값 추정
    : 예측, 분류,

Descriptive Analysis

  • 기술통계: 통계기반(평균,최대,최소…) 데이터 속성 요약/파악
  • 군집화: 유사속성 묶어, 군집(Cluster)으로 나누는것
  • 연관규칙: 데이터에 숨어있는 항목간의 관계를 탐색하는 것, 규칙성 도출

Predictive Analysis

  • 예측모형: 과거의 데이터바탕, 관측되지 않은 변수의 미래 값 평가
    : 예측, 분류
  • 예측모형의 구축 및 활용
    : Historical Data -> Predictive Alogorithms -> Model -> New data -> predict

기계학습

  • 인공지능기법이자 인공지능에 필요한 지식을 찾는 방법론
  • 지도학습/비지도학습/강화박습
  • 학습용 데이터 구축: 독립변수(t 시점), 종속변수(t+1시점)
    : 기계학습(가중치 초기화>출력값 계산>목표값의 비교)->교사학습(가중치조정->과정반복)

SPSS

  • SPSS Modeler(ver 17)
    : 데이터 마이닝 도구, 대용량 데이터 처리, 결과 예측모형 도출
    : 데이터 로딩/변환/정제/모델링/그래프/결촤출력 전과정을 하나의 환경에서 제공, 다양한 알고리즘 보유

데이터 마이닝

  • 데이터내 관계/패턴/규칙 탐색하여 모형화 및 유용한 지식 추출의 일련과정
  • 도입배경: 컴퓨터파워증가, 통계적/기계학습기법 접목/데이터 수집관리능력 향상
  • 수행단계: 샘플링->정제/전처리->탐색및변형->모형화->보고/시각화->적용단계

텍스트 마이닝

  • 자연어로 구성된 비정형 Text 데이터에서 패턴/관계를 추출하여 가치정보를 찾아내는 기법
  • 수행단계: 텍스트수집->전처리(형태소분석 등)->의미정보변환(불용어/어간처리 등)->의미정보추출->패턴경향분석->정보표현/평가
  • 적용분야: 출시상품 웹반응분석, 고객 VOC분석 마케팅활용