티스토리 뷰

빅데이터 분석기사 필기 기출 정리

 

분석 모니터링

: 분석 서비스의 안정적인 운영과 현행화된 데이터의 수집, 저장, 관리, 분석 결과 활용 등을 위한 지속적인 활동

 

AUC(Area Under the Curve)

: 평가모델의 ROC곡선의 하단 면적을 뜻하며 ROC곡선이 직선에서 멀어질수록 성능이 더 뛰어남

 

 

ROC(Reciever Operating Characteristic) : 모든 임계값에서 분류 모델의 성능을 보여주는 그래프

 

 

산점도

: 다수의 객체를 군집으로 나누어 그룹 클러스터별 단위로 분석하는 군집분석에서 적용되는 시각화 기법

 

시간시각화 - 막대그래프, 점/선 그래프

분포시각화 - 파이차트, 누적연속그래프

비교시각화 - 히트맵

공간시각화 - 카토그램

 

(좌) 히트맵 (우) 카토그램
누적연속그래프

확률적 경사 하강법 (SGD : stochastic gradient descent)

: 손실함수의 기울기를 따라 조금씩 아래로 내려가다 최종적으로 손실함수가 가장 작은 지점에 도달하도록 하는 알고리즘으로 매개변수 값을 조정 시 전체 데이터가 아니라 랜덤으로 선택한 하나의 데이터에 대해서만 계산하는 방법

 

 

데이터 시각화

- 누적막대그래프이산형(분절형) 데이터를 표현하는데 적합

- 막대그래프에서 굵기데이터 값과 상관이 없다.

- 데이터 시각화를 통해서 데이터의 이상치를 효율적으로 발견 가능

 

 

Dunn Index

: 비지도학습 군집분석 모델 평가지표로 군집 간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모로 하는 지표

(지도학습 회귀모델의 평가지표 X)

 

 

분석모형 리모델링에서 수행하는 활동

: 데이터 품질 검토, 분석 알고리즘 개선, 매개변수 최적화

- 분석 알고리즘 적합도 검정분석 모형 평가 과정에서 이루어짐

 

 

회귀분석에서 잔차진단의 유형

: 잔차의 정규성, 등분산성, 독립성 진단

(이상치 X)

 

 

- 일반적으로 분석 결과의 기여도 평가ROI(Return Of Investment, 투자수익률) 또는 업무 효율성 향상에 대한 비율로 측정

 

(좌) 히스토그램 (우) 파이차트

 

(좌)트리맵 (우) 평행좌표계

- 평행좌표계는 스타차트처럼 하나 이상의 대상에 대한 특징을 보여주는 것으로 데이터 값의 분포를 표현하기에는 적절하지 않다.

 

- 분포시각화 : 누적연속그래프, 파이차트

- 비교시각화 : 히트맵

- 공간시각화 : 카토그램

 

 

다차원 척도법 

- 모든 변수를 비교해서 비슷한 대상을 그래프 상에서 가깝게 배치

- 대상들 사이의 상대적 위치를 통해 유사성을 쉽게 파악가능

 

 

누적히스토그램

- 데이터의 출현 빈도를 오른쪽으로 누적하면서 표시

- 마지막 막대는 전체 데이터의 총 수를 나타냄

 

(좌) 누적히스토그램 (우) 누적 막대그래프

 

 

범례

: 차트에 표현되는 기호나 선 등이 어떤 의미인지 설명하기 위해 사용하는 것

 

 

군집타당성지표

: 군집 간 거리, 군집의 분산, 군집의 지름

(군집의 평균X)

 

 

적합도 검정 = 범주형 변수에 관한 분석 방법

ex) 정규성 검정, 카이제곱 검정, 콜모고로프 스미르노프 검정

T검정 -> 연속형 변수에 활용

 

 

오차행렬(Confusion matrix)

: 훈련을 통한 예측 성능을 측정하기 위해 예측값과 실제값을 비교하기 위한 표를 명칭하는 것

 

결정계수

: 분석모델마다 평가되는 해석지표들이 다양한데 회귀모델에서의 해석지표로 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표

 

 

SVM : 비교시각화 기법의 산점도

KNN : 비교시각화 기법평행좌표계로써 변수들과의 연관성 및 그룹데이터의 경향성을 파악

의사결정나무 : 관계시각화 기법의 트리 다이어그램

회귀모델 : 관계시각화 기법의 히트맵

 

(좌) SVM (우) KNN

 

 

분석과제 선정을 위해 고려하는 항목

- 과제의 추진 시급성

- 분석모델의 구현 가능성

- 분석기회 발굴 위한 질문 구체화

cf ) 분석목적에 따른 분석과제 선정과 별개로 분석 결과의 기여도 평가 정의가 필요

 

 

과대적합 방지를 위한 기법

- 드롭아웃

: 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법으로 적은 수의 뉴런들로 학습을 진행할 때 시간이 오래 걸리는 것이 단점인 기법

 

- L1 규제

: 가중치의 절댓값에 비례하는 비용이 추가

- L2 규제

: 가중치의 제곱에 비례하는 비용이 추가, 가중치 감쇠라고도 불린다.

 

 

단계구분도

: 면적이 넓은 지역의 값이 전체를 지배하는 것처럼 보이는 시각적 왜곡이 발생 가능

공간시각화

: 실제 지도나 지도모양의 다이어그램을 배경으로 데이터의 위치를 시각화

스타차트 

: 여러 개의 대상을 하나의 차트에 동시에 표현 가능

히트맵

: 여러 변수와 다수의 대상에 대해 하나의 표 형태로 표현 가능

 

 

초매개변수 (하이파라미터)

: 모델이 아닌 학습 알고리즘 자체를 조정하는 의미로 사람이 직접 설정하여 최적화하는 것

- 뉴런의 수, 배치(batch)의 크기, 학습률(learning rate), 가중치 감소시의 규제 강도(regularization strength) 등이 있다.

 

 

초매개변수 최적화 기법

: 미니배치 크기, 훈련반복 횟수, 은닉층 개수 조정 등이 있다.

(가중치 값 X)

 

 

딥러닝모델에 대한 시각화 방법

: 파라미터, 가중치 시각화 및 특징 차원 감소를 통해 노드-링크 다이어그램, 산포도, 차원축소 

(산점도 X)

 

 

분석의 주요 목적

: 제품 및 절차 효율성, 고객 인사이트, 위기 관리시스템

(서비스 가이드라인 제정 X)

 

 

- 형태속성은 각각의 독립된 모양으로 데이터를 표현하는 것으로 연속형 데이터를 표현하기에 덕합하지 않다.

 

- 손실함수가 최소가 되는 가중치 값인 중심 점을 찾아 큰 가중치를 제한하는데 람다로 규제의 강도를 크게 하면 가중치 값이 0에 가까워진다.

 

- 분석 목적은 변하지 않으며, 목적을 달성하기 위한 분석 모델과 데이터, 알고리즘을 검토하고 개선

 

- 매개변수의 최적화는 학습(예측)모델과 실제값의 차이가 손실함수로 표현될 시 손실함수의 값을 최소화시키는 매개변수, 즉 가중치와 편향을 찾는 최적값을 탐색하는 과정이다.

 

 

 

분석모델별 결과해석

- 딥러닝 모델 해석에 사용하는 오차율은 상대오차나 평균 제곱근 편차를 사용

- 회귀분석모델잔차에는 패턴이나 추세가 있어서는 안된다.

- 군집분석모델은 연속형 변수의 경우 평균 또는 중앙값을 계산

- 연관분석모델은 지지도, 신뢰도 및 향상도가 높은 규칙들을 찾되 최소 기준점을 적용

 

 

댓글
최근에 올라온 글
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Total
Today
Yesterday