[온라인 강좌 강의노트]
- K-MOOC 강좌명: [집콕]빅데이터의 세계, 원리와 응용
1주차
빅데이터란
- 빅데이터 분석: 귀납적(경험->정보)
- 비즈니스 인텔리젠스(1990년대말): 데이터->기업정보활용
: 데이터웨어하우스/OLAP, 데이터 마이닝 - 데이터 분석과정
: 데이터확인>수집>저장(Hadoop,NoSQL)>처리>분석(통계,마이닝)>표현
빅데이터 주요특징
- 기술적요소/전략적요소/인적요소
- 기술적요소: 데이터(정형/비정형), 수집/처리/저장, 분석/지식추출
- 전략적요소: 디지털 transformation>Data Technology 활용기획>빅데이터 분석 활용기회탐색>활용시나리오 도출
- 인적요소: CDC(Chief Data Officer), Data Scientists, 빅데이터 팀, 교육
빅데이터와 인공지능
- 귀납(사례,데이터분석)에 의한 지식획득 가능성(빅데이터)->딥러닝 학습
빅데이터가 제공하는 기회
- 의사결정의 질 제고, 운영효율 제고, 새로운 가치 창출(BM발굴)
데이터 분석과정
- 데이터(Source인식) > 수집(ETL,클롤링) > 저장(Hadoop,NoSQL) > 처리 > 분석(통계,마이닝,머신러닝) > 표현(가시화)
2주차
빅데이터 활용의 핵심 성공요인
- 분석을 위한 기획능력 필요
- 분석 시나리오 수립이 어려운 이유: 도메인 지식부족, 수집/저장/분석 기술능력 부족, 어떤 결과가 도출가능한지 이해부족
- 기획능력 향상방법: 요소기술 이해, 가치에 대한 인식, 성공사례 분석
활용사례 1
- 독감예보 서비스(구글 검색어 빅데이터로 예측)
: 어떤 데이터: 검색어 조회수
: 어떻게 분석: 빈도를 계산
: 어떤 가치 제공: 독감 예보 - SNS를 활용한 영화 흥행 수익 예측
: 어떤 데이터: SNS상의 비정형 Text 데이터
: 어떻게 분석: 텍스 마이닝(감정분석, 오피니언 분석)
: 어떤 가체 제공: 경영/투자자의 의사결정 자료 - 빅데이터 분석을 통한 심야버스 노선 정책지원
: 어떤 데이터: 서울시민 전화통화 기록
: 어떻게 분석: 기술통계(평균,표준편차,빈도)
: 어떤 가치: 시민편익, 수익보장 - 빅데이터 기반 고객의 소리분석 시스템을 통한 서비스 혁신
: 어떤 데이터: 고객 음성 데이터(STT:speech to text)
: 어떻게 : 텍스트 마이닝
: 어떤 가치: 고객 중심 경영
활용사례 2
- 데이터 마이닝을 활용한 신용평가 시스템 구축 (국민은행)
: (생각1) 기업의 재무제표 지표값과 회사의 부도여부 간의 상관성
: (생각2) 부도난 회사의 패턴을 머신러닝으로 모델링(부도패턴 예측) -> 부도예측시스템 구축
: 어떤 데이터: 기업 데이터(재무, 비재무)
: 어떻게 분석: 통계기법, 인공지능 기법 모형구축
: 어떤 가치 제공: 기업 심사비용 감축, 의사 결정 지원 - 빅데이터 분석을 활용한 감사정보 시스템 구축
- 빅데이터 분석을 활용한 탈세 및 범죄 예방시스템 구축
: 어떤 데이터: 납세,SNS데이터
: 어떻게 분석: 데이터 마이닝, 사회연결망 분석
: 어떤 가치 제공: 재정 수입에 기여, 탈세 예방 효과
빅데이터 분석 기획1,2
- 문제해결 > 목표와 방법 > 확보계획
- 분석 기획 목적:
: 분석대상 발굴 및 구체화, 확보 역량, 분석역량, 운영관리 체계 정규화, 의사결정문화 정착
: 데이터/분석역량/프로세스/문화/ICT 거버넌스등 전반에 걸친 해결방안 수립 - 분석 기획의 단계: 분석기회 발굴 => 분석기회 구체화 => 마스터 플랜 수립
: 분석 기회 발굴: 문제 정의/필요성/목표 정의
: 분석 기회 구체화: 목표달성 방법 구체화, 수행절차 적용방법/기술 정의
: 마스터 플랜수립: 로드맵/일정계획, 분석 거버넌스 체계 필요 - 분석 기회발굴: 톱다운(전사비즈모델분석), 바틈업(대상프로세스선정/분석), 벤치마킹
- 분석 기회 구체화: 분석 체계/과정 구체화, 활용시나리오 구체적 정의
: 분석기회 구조화: 묵표가치, 유저스토리 형식 정의, 목표가치 지표화, 분석질문 정의
: 분석방안 구체화: 체계/과정 구체화, 전체분석세트 및 관계도출, 데이터 정의 분석 경제성 평가
: 활용시나리오정의: 프로세스 지능화/변화 발생 - 마스터 플랜 수립: 전략적 우선순위, 로드맵 수립(우선순위 평가, 분석적용 범위/방식 고려)
: 분석 과제 우선순위 평가: 중요도, 경제성(ROI), 실행용이성 고려
: 단계적 구현 로드맵 수립:
: 일정계획: 세부 일정
3주차
분석을 위한 데이터들
- 정형 데이터: 고정된 필드에 저장된 데이터, 설계자에 의해 형태가 정해짐
- 비정형 데이터: 문서/그림/영상…
- 분석대상 데이터의 예
: 텍스트분석->핵심단어, 주요토픽/이슈, 감정(긍정/부정)
: 웹: Html>Tagging>분석
: SNS: 사용자반응<–게시글 크롤링
: 로그데이터: 방문시간/횟수/접근정보/관심상품…
: 센서데이터/사진(이미지)/동영상
빅데이터의 수집
- 데이터수집: 데이터소스 데이터 자동수집, 저장/변환/통합
- 수집과정의 중요성: 정확한 데이터가 필요/분석목적 고려
- 내부데이터/외부데이터
- 수집방법(ETL) : 수집/변환/적재
- 외부 데이터 수집방법: 크롤링(스크래핑)- Textom,
(데이터 저장) 데이터베이스란
(데이터 저장) 데이터모델링이란(E-R모델링)
(데이터 분석) 데이터 웨어하우스란?
- DW: DB(응용프로그램목적), DW(적절한조합->지식변환 목적->의사결정지원)
- DW정의: 주제중심/통합/시간성/비휘발성 자료 집합
- DW특징: 주제/데이터중심, 비휘발성(읽기중심), 시간성(역사성)
- 데이터 마트(Mart):
: 데이터 웨어하우스와 사용자 사이의 중간층에 위치
: 하나의 주제 하나의 부서 중심 DW
: DW가 도매상이면, DT는 소매상
: DW->DT로 데이터 복제 - 구성
: 운영/보관data -> 자료 추출/변환 -> 메타데이터<-> DW->DT -> 분석도구/OLAP
OLAP(On-Line Analytical Processing)
- 다차원 데이터 구조를 이용하여 다차원의 복잡한 질의를 고속으로 처리하는 데이터 분석기술
- 온라인 분석처리의 구성요소 : 드립 다운(Drill down)/드립 업,
빅데이터와 비정형 데이터베이스(1)
- 분산시스템 필요, 비정형 데이터베이스(NoSQL, Hadoop)
- CAP이론(Consistency-일관성, Availability-가용성, Partiton Tolerance-지속성) 불가능
: CAP중 두개를 선택하고 하나를 포기(RDB-C/A, 비정형-P/A, P/C) - NoSQL(Not-Only SQL or NoSQL)
: 규마 확장성, 분산저장, 대용량 구조/반구조적 저장 용이(MongoDB…)
: key-val(레디스,캐시..), 컬럼(H베이스..), 도큐먼트(몽고DB..), 그래프(Neo4J..) - NoSQL 특징: 스키마 없음, 저장방식(값,컬럼,문서,그래프), 탄력성, 부하분산용이, 조회용이
비정형 데이터베이스(2)
- 하둡(Hadoop)이란? : 대용량 데이터의 분산 저장과 처리가 가능한 자바 기반 오픈소스 프레임워크
: 여러개의 컴퓨터를 묶어서 하나의 시스템으로 처리
: 하둡 파일 시스템(HDFS), 맵리듀스(분산된 서버 자원으로 쉽게 분석) - 데이터 > 맵리듀스(분석처리) > HDFS
- 주요특징: 대용량 처리에 적합, 클라우드 환경 적합, 장애의 대비, 저렴한 구축비용
- 구성요소: 파일시스템(HDFS, 64M~128M단위 분산저장/복제/클러스터), 맵리듀스(분산처리계산)
4주차
데이터분석
- 데이터 분석 유형
: Descriptive Analysis: 현재상황 이해/사실 파악
: Diagnostic Analysis : 현재상황 이해/원인파악
: Predictive Analysis: 미래, 또는 결과에 대한 예측
: Prescriptibe Analsis: 해결방안 도축 - Descriptive 방식: 데이터 요약/정보생성, 사실이해/현황파악, 의사결정 지원
: 기술통계, 군집화, 연관규칙, - Predictive 방식: 예측모형, 미래/미지의 값 추정
: 예측, 분류,
Descriptive Analysis
- 기술통계: 통계기반(평균,최대,최소…) 데이터 속성 요약/파악
- 군집화: 유사속성 묶어, 군집(Cluster)으로 나누는것
- 연관규칙: 데이터에 숨어있는 항목간의 관계를 탐색하는 것, 규칙성 도출
Predictive Analysis
- 예측모형: 과거의 데이터바탕, 관측되지 않은 변수의 미래 값 평가
: 예측, 분류 - 예측모형의 구축 및 활용
: Historical Data -> Predictive Alogorithms -> Model -> New data -> predict
기계학습
- 인공지능기법이자 인공지능에 필요한 지식을 찾는 방법론
- 지도학습/비지도학습/강화박습
- 학습용 데이터 구축: 독립변수(t 시점), 종속변수(t+1시점)
: 기계학습(가중치 초기화>출력값 계산>목표값의 비교)->교사학습(가중치조정->과정반복)
SPSS
- SPSS Modeler(ver 17)
: 데이터 마이닝 도구, 대용량 데이터 처리, 결과 예측모형 도출
: 데이터 로딩/변환/정제/모델링/그래프/결촤출력 전과정을 하나의 환경에서 제공, 다양한 알고리즘 보유
데이터 마이닝
- 데이터내 관계/패턴/규칙 탐색하여 모형화 및 유용한 지식 추출의 일련과정
- 도입배경: 컴퓨터파워증가, 통계적/기계학습기법 접목/데이터 수집관리능력 향상
- 수행단계: 샘플링->정제/전처리->탐색및변형->모형화->보고/시각화->적용단계
텍스트 마이닝
- 자연어로 구성된 비정형 Text 데이터에서 패턴/관계를 추출하여 가치정보를 찾아내는 기법
- 수행단계: 텍스트수집->전처리(형태소분석 등)->의미정보변환(불용어/어간처리 등)->의미정보추출->패턴경향분석->정보표현/평가
- 적용분야: 출시상품 웹반응분석, 고객 VOC분석 마케팅활용