티스토리 뷰

https://cbt.youngjin.com/

 

이기적 CBT, 영진닷컴

 

cbt.youngjin.com

 

 

 

CRISP-DM 분석 방법론

업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개

 

 

정성적 데이터 vs 정량적 데이터

- 정성적 데이터 

: 언어나 문자로 표현된 데이터, 비정형 데이터로 비구조화된 데이터

ex) 쿠팡의 리뷰, 인터뷰, 언론 보도

- 정량적 데이터

: 수치, 도형, 기호 등 바로 측정할 수 있는 데이터

 

 

key-value 데이터베이스

- 단순한 데이터 모델에 기반

- 관계형 데이터베이스보다 확장성 뛰어남

- 질의응답 시간도 빠름

 

 

계층적 프로세스 모델

단계(Phase) -> 태스크(Task) -> 스텝(Step)

 

 

NoSQL 데이터베이스 저장 방식

- key-value 데이터베이스

- column-oriented 데이터베이스

- document 데이터베이스

 

 

데이터 품질기준

- 비정형 데이터의 품질기준 : 기능성, 신뢰성, 사용성, 효율성, 이식성

- 정형 데이터의 품질기준 : 완전성, 유일성, 유효성, 일관성, 정확성

 

 

데이터 분석 절차 

: 문제 인식 -> 연구조사 -> 모형화 -> 데이터 수집 -> 데이터 분석 -> 분석 결과 제시

 

 

분석 변수의 전처리 방법

: 데이터 정제, 데이터 통합, 데이터 축소, 데이터 변환

 

 

SEMMA 분석 방법론 분석 절차

추출 -> 탐색 -> 수정 -> 모델링 -> 평가

 

 

반정형 데이터

ex) 웹로그, 센서 데이터, JSON 파일, XML 파일, HTML 파일 

 

 

상향식 접근 방식

- 데이터 분석을 통해 원인을 추적하면서 문제를 도출하거나 재정의 가능

- 데이터 분석을 통해 생각지 못한 인사이트 도출 가능

- 비지도 학습 방법에 의해 수행되며, 시행착오를 통한 개선 가능

 

하향식 접근 방식

- 솔루션 도출은 유효하지만 새로운 문제 탐색은 어렵다.

 

 

층화 추출

: 모집단을 서로 겹치지 않게 여러 층(strata)으로 나누어 분할된 층(stratum) 별로 배정된 표본을 단순 임의 추출법에 따라 추출하는 방법이다. 각 집단별 분석이 필요한 분석의 경우나 모집단 전체에 대한 특성치의 효율적 추정(추론)이 필요한 경우 시행한다.

 

 

결측 값 종류 

- 완전 무작위 결측은 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우로 정의

- 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우, 결측 데이터를 가진 모든 변수가 완전 무작위 결측이라면 대규모 데이터에서 단순 무작위 표본추출을 통해 처리 가능

- 무작위 결측(MAR)변수 상의 결측 데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비 관측값들과는 연관되지 않은 경우

- 비 무작위 결측(NMAR)은 어떤 변수의 결측 데이터가 완전 무작위 결측(MCAR) 또는 무작위 결측(MAR)이 아닌 결측 데이터로 정의하는 것

 

 

전진 선택법

- 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순 상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함시키는 것

- 부분 F 검정(F test)을 통해 유의성 검증을 시행, 유의한 경우는 가장 큰 F통계량을 가지는 모형을 선택하고 유의하지 않은 경우는 변수 선택 없이 과정을 중단

- 한 번 추가된 변수는 제거하지 않는 것이 원칙

 

 

가설검정

- 제1종 오류 : 귀무가설이 참일 때 귀무가설을 기각하도록 결정하는 오류

- 제2종 오류 : 귀무가설이 거짓인데 귀무가설을 채택할 오류

- 가설검정의 유의 수준 : 귀무가설이 참인데도 이것을 기각하게 될 확률

 

 

질적 자료(Qualitative Data)

: 정성적 자료라고도 하며 자료를 범주의 형태로 분류,

분류의 편리상 부여된 수치의 크기 자체에는 의미를 부여하지 않는 자료이며, 명목 자료, 서열 자료 등이 질적 자료 

 

 

이산 확률분포

: 포아송 분포

 

연속 확률분포

: T-분포, 정규분포, 카이제곱 분포 

 

 

시간 데이터

- 스냅샷 데이터 : 시간 개념이 필요하지 않아 거래, 유효시간을 미 지원하는 데이터

- 이원 시간 데이터 : 거래, 유효시간과 스냅샷데이터를 동시에 지원하는 데이터

 

 

군집 추출

- 모집단을 차이가 없는 여러 개 군집으로 나누어 군집 단위의 일부 또는 전체에 대한 분석을 시행

- 모집단에 대한 추출 기반을 마련하기가 어려운 경우 사용하면 편리

- 표본크기가 같은 경우 단순 임의 추출에 비해 표본오차가 증대할 가능성이 있다

 

<-> 단순 무작위 추출 방법

- 추출 모집단에 대해 사전 지식이 많지 않은 경우 시행하는 방법

 

 

다중회귀분석 기본 가정

- 회귀 모형은 모수에 대해 선형인 모형

- 오차 항의 분산은 모든 관찰치에 대해 (시그마 제곱)의 일정한 분산을 갖는다.

- 서로 다른 관찰치 간의 오 차 항은 상관이 없다. (오차항은 서로 독립이며, 공분산은 0)

- 오차항은 정규분포를 따르며 N(0, 시그마 제곱)이다. 

 

 

샘플링

- 언더샘플링대표클래스의 일부 만을 선택하고, 소수 클래스는 최대한 많은 데이터를 사용하는 방법

- 오버샘플링소수 클래스의 복사본을 만들어, 대표클래스의 수만큼 데이터를 만들어 주는 것

 

 

비정형 데이터

: 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장되거나 문서에 주석화된(의미적으로 태그 된) 데이터에 비해 전통적인 프로그램을 사용해 이해하는 것을 불가능하게 만듦

 

 

주성분 분석(PCA : Principal Component Analysis)

- 분포된 데이터들의 특성을 설명할 수 있는 하나 또는 복수개의 특징을 찾는 것

- 서로 연관성이 있는 고차원 공간의 데이터를 선형 연관성이 없는 저차원(주성분)으로 변환하는 과정을 거친다.(직교 변환 사용)

- 기존의 기본 변수들을 새로운 변수의 세트로 변환하여 차원을 줄이되 기존 변수들의 분포 특성을 최대한 보존하여 이를 통한 분석 결과의 신뢰성을 확보

- 차원 축소에 폭넓게 사용 + 어떠한 사전적 분포 가정의 요구가 없다.

- 차원의 축소는 본래의 변수들이 서로 상관이 있을 때만 가능

 

 

명목 자료(Nominal Data) :

질적 자료의 한 종류로 측정대상이 범주나 종류에 대해 구분되는 것을 수치 또는 기호로 분류되는 자료

서열 자료(Ordinal Data) :

질적 자료

구간 자료(Interval Data):

수치자료의 한 종류로 명목 자료, 서열 자료의 의미를 포함하면서 숫자로 표현된 변수에 대해서 변수 간의 관계가 산술적인 의미를 가지는 자료

비율 자료(Ratio Data) :

수치자료의 한 종류로 명목 자료, 서열 자료, 구간 자료의 의미를 다 가지는 자료로서 수치화된 변수에 비율의 개념을 도입할 수 있는 자료

 

 

추론 통계

- 모집단에 대한 어떤 미지의 양상을 알기 위해 통계학을 이용해 추측하는 과정을 지칭하며 통계학의 한 부분으로서 추론 통계학이라고 불림

- 추정은 표본을 통해 모집단 특성이 어떠한가에 대해 추측하는 과정.

표본 평균 계산을 통해 모집단 평균을 추측해보거나, 모집단 평균에 대한 95% 신뢰구간의 계산 과정을 나타냄

- 통계적 추론 또는 통계적 추측은 모집단에 대한 어떤 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭하며 통계학의 한 부분으로서 추론 통계학이라고 불린다. 이것은 기술 통계학(Descriptive Statistics)과 구별되는 개념

 

 

사분위편차

1) 하한 사분위수(Q1) 구하기

Q1의 위치 = (n+1) / 4

 

2) 상한 사분위수 Q3 구하기

Q3의 위치 = 3 * (n+1) / 4

 

-> 사분위편차 =  (Q3 - Q1)

 

 

기각역

- 기각역 : 귀무가설을 기각하게 되는 검정 통계량의 범위

- 임계치 : 주어진 유의 수준에서 귀무가설의 채택과 기각에 관련된 의사결정을 할 때, 그 기준이 되는 점

- 양측 검정 : 가설검정에서 기각 영역이 양쪽에 있는 것

- 단측 검정 : 가설 검정이 기각 영역의 어느 한쪽에만 있는 것

 

 

SVM(Support Vector Machine)

: SVM(Support Vector Machine) 분석모델은 지도 학습 기법으로써 고차원 또는 무한 차원의 공간에서 초평면의 집합을 찾아 이를 이용하여 분류와 회귀를 수행

- SVM의 핵심적 특징은 기존 분류기가 오류율 최소화에 있다면 여백(마진) 최대화로 일반화 능력의 극대화를 추구하는 점으로 마진이 가장 큰 초평면을 분류기(classifier)로 사용할 때 새로운 자료에 대한 오분류가 가장 낮아진다.

- 경계면과 수직인 법선벡터를 w라고 할 때 마진은 2/(|W|)로 계산된다.

 

 

K-평균 군집

: 각각 중심에 모인 데이터를 같은 군집으로 할당하는 대표적인 군집 분석알고리즘

비계층적 군집분석

: 분석 전에 군집의 수를 정해놓고 군집의 중심으로부터 가까운 순으로 군집에 들어갈 데이터를 정하는 방법

 

 

자기 회귀모형(AR : Autoregressive Model)

: 일정 시점 전의 자료가 현재 자료에 영향을 준다는 가정하에 만들어진 시계열 예측 모형

 

자기 회귀 누적 이동평균 모형(ARIMA)

: 비정상성을 가지는 시계열 데이터 분석에 많이 사용

 

자기 회귀 이동평균 모형(ARMA)

: 이동평균 모형과 결합된 형태로 나타내어진다. (AR(q) 모형 + MA(q) 모형)

 

 

비모수 통계

-  가정을 만족시키지 못한 상태에서 그대로 모수 통계분석을 함으로써 발생할 수 있는 오류를 줄일 수 있다.

- 질적 척도로 측정된 자료도 분석이 가능

- 비교적 신속하고 쉽게 통계량을 구할 수 있으며 결과에 대한 해석 및 이해 또한 용이

- 많은 표본을 추출하기 어려운 경우에 사용하기 적합

 

 

GAN(Generative Adversarial Network)

: GAN은 2014년 NIPS에서 Ian Goodfellow가 발표한 회귀 생성 모델로서 분류를 담당하는 모델(판별자 D)회귀 생성을 담당하는 두 개의 모델(생성자 G)로 구성되어 있다. 생성자 G와 판별자 D가 서로의 성능을 개선해 적대적으로 경쟁해 나가는 모델로 적대적 학습에서는 분류 모델을 먼저 학습시킨 후, 생성 모델을 학습시키는 과정을 서로 주고받으면서 반복

 

 

로지스틱 회귀분석

: 독립변수 - 연속형

: 종속변수 - 범주형

: 분포 - 이항 분포

 

 

분석모형 종류

: 예측 분석 모형, 현황 진단 모형, 최적화 분석 모형

 

 

랜덤 포레스트 

: 여러 개의 의사결정 나무를 활용하여, 예측 결과를 투표/ 다수결 방식으로 예측 결정

 

 

파이썬

 = 한 줄씩 실행하는 방식의 실행 속도가 느린 인터프리터 언어

 

 

앙상블 분석의 종류

- 소프트 보팅 

: 최종 결과물이 나올 확률 값을 다 더해서 최종 결과물에 대한 각각의 확률을 구한 뒤 최종 값을 도출

- 부스팅

: 가중치를 활용해 연속적인(Sequential) Week learner를 생성하고 이를 통해 강 분류기를 만드는 방법

- 랜덤 포레스트

: 배경기법을 활용한 모델

- 배깅

: 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계하는 방법

 

 

순환 신경망(Recurrent Neural Network)

- 인공신경망을 구성하는 유닛 사이의 연결이 Directed Cycle을 구성하는 신경망

- 앞먹임 신경망과 달리, 임의의 입력을 처리하기 위해 신경망 내부의 메모리를 활용 가능

- 필기체 인식과 같은 분야에 활용되고 있고, 높은 인식률을 나타냄

- 기존의 뉴럴 네트워크와 다른 점은 '기억'을 갖고 있다는 점인데, 네트워크의 기억은 지금까지의 입력 데이터를 요약한 정보

 

 

리얼리티 마이닝

: 통화/메시징 등의 커뮤니케이션 데이터, gps/wifi 등의 위치 데이터.

이를 통해 사회적 행위를 마이닝하고 사용자 행동 모델링이나 라이프 로그도 얻어내는 것을 목표

 

 

단계구분도

: 여러 지역에 걸친 정량정보를 표현할 때, 데이터가 분포된 지역별로 색을 다르게 칠한 지도

 

 

Dunn Index

: 비지도학습 군집분석 모델 평가지표로 군집 간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모로 하는 지표

 

 

교차검증

- 테스트 검증 데이터가 하나로 고정되지 않게 하며 데이터 모든 부분을 사용해 모델을 검증

- 전체 데이터셋을 k개의 서브셋으로 나누어 k번의 평가를 실행하는데 테스트 셋을 중복없이 병행 진행하여 평균을 내어 최종적 모델의 성능을 평가

- 훈련 데이터셋의 일부를 훈련으로 이용하며 나머지를 검증으로 활용

 

 

스케일 : 그래프에서 표현되는 데이터 값의 범위

 

 

데이터 시각화 방법

- 단계 구분도 : 면적이 넓은 지역의 값이 전체를 지배하는 것처럼 보이는 시각적 왜곡이 발생 가능

- 공간시각화 : 실제 지도나 지도모양의 다이어그램을 배경으로 데이터의 위치를 시각화

- 히트맵 : 여러 변수와 다수의 대상에 대해 하나의 표 형태로 표현 가능

- 스타차트 : 여러 개의 대상을 하나의 차트에 동시에 표현 가능

 

 

트리맵

- 하나의 사각형 영역에 세부 사각형들의 크기로 데이터 분포를 시각화

- 계층형 구조를 가진 데이터를 표현하는 데 유용

- 사각형의 크기를 이용해서 데이터 값을 표현

- 시도별 인구분포, 취업자 분포 등 분포 데이터를 표현하는데 유용

 

 

분석 모니터링

: 분석 서비스의 안정적인 운영과 현행화된 데이터의 수집, 저장, 관리, 분석 결과 활용 등을 위한 지속적인 활동

 

 

오차행렬

: 훈련을 통한 예측 성능을 측정하기 위해 예측값과 실제값을 비교하기 위한 표를 명칭

 

 

분석결과 활용 계획

: 분석결과 활용은 장기적 관점에서 진행해야 하며, 임시조직에서 담당하는 것보다는 업부부서를 확대하거나 장기적으로 전담하는 조직을 갖추는 것이 효율적

 

 

군집타당성지표 고려사항

: 군집 간 거리, 군집의 분산, 군집의 지름

 

 

앙상블 학습

: 주어진 자료를 이용하여 여러 가지 분석 예측 모형들을 만들고 해당 예측모형들을 결합하여 최종적인 하나의 예측모형을 만드는 기법

 

 

 

 

 

과목 별 정리

1과목 : https://gyurisinzorba.tistory.com/63?category=1037014 

 

[빅데이터분석기사] 필기 1과목 '빅데이터 분석기획' 정리

빅데이터 분석기사 필기 기출 정리 분석 변수의 전처리 방법 : 데이터 정제, 데이터 통합, 데이터 축소, 데이터 변환 (삭제 X) 개인정보 판단기준 - 생존하는 개인에 관한 정보 - 개인에 관한 정

gyurisinzorba.tistory.com

2과목 : https://gyurisinzorba.tistory.com/64?category=1037014 

 

[빅데이터분석기사] 필기 2과목 '빅데이터 탐색' 정리

빅데이터 분석기사 필기 기출 정리 군집분석 : 변수 또는 개체(item)들이 속한 모집단 또는 범주에 대한 사전 정보가 없는 경우에 관측값들 사이의 거리(또는 유사성)를 이용하여 변수 또는 개체

gyurisinzorba.tistory.com

3과목 : https://gyurisinzorba.tistory.com/65?category=1037014 

 

[빅데이터분석기사] 필기 3과목 '빅데이터 모델링' 정리

빅데이터 분석기사 필기 기출 정리 앙상블 분석 - 부스팅(Boosting) : 가중치를 활용하여 연속적인 Weak learner를 생성하고 이를 통해 강분류기를 만드는 방법 - 소프트 보팅(soft voting) : 최종 결과물이

gyurisinzorba.tistory.com

4과목 : https://gyurisinzorba.tistory.com/66?category=1037014 

 

[빅데이터분석기사] 필기 4과목 '빅데이터 결과 해석' 정리

빅데이터 분석기사 필기 기출 정리 분석 모니터링 : 분석 서비스의 안정적인 운영과 현행화된 데이터의 수집, 저장, 관리, 분석 결과 활용 등을 위한 지속적인 활동 AUC(Area Under the Curve) : 평가모

gyurisinzorba.tistory.com

 

댓글
최근에 올라온 글
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Total
Today
Yesterday