티스토리 뷰
빅데이터 분석기사 필기 기출 정리
분석 모니터링
: 분석 서비스의 안정적인 운영과 현행화된 데이터의 수집, 저장, 관리, 분석 결과 활용 등을 위한 지속적인 활동
AUC(Area Under the Curve)
: 평가모델의 ROC곡선의 하단 면적을 뜻하며 ROC곡선이 직선에서 멀어질수록 성능이 더 뛰어남
ROC(Reciever Operating Characteristic) : 모든 임계값에서 분류 모델의 성능을 보여주는 그래프
산점도
: 다수의 객체를 군집으로 나누어 그룹 클러스터별 단위로 분석하는 군집분석에서 적용되는 시각화 기법
시간시각화 - 막대그래프, 점/선 그래프
분포시각화 - 파이차트, 누적연속그래프
비교시각화 - 히트맵
공간시각화 - 카토그램
확률적 경사 하강법 (SGD : stochastic gradient descent)
: 손실함수의 기울기를 따라 조금씩 아래로 내려가다 최종적으로 손실함수가 가장 작은 지점에 도달하도록 하는 알고리즘으로 매개변수 값을 조정 시 전체 데이터가 아니라 랜덤으로 선택한 하나의 데이터에 대해서만 계산하는 방법
데이터 시각화
- 누적막대그래프는 이산형(분절형) 데이터를 표현하는데 적합
- 막대그래프에서 굵기는 데이터 값과 상관이 없다.
- 데이터 시각화를 통해서 데이터의 이상치를 효율적으로 발견 가능
Dunn Index
: 비지도학습 군집분석 모델 평가지표로 군집 간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모로 하는 지표
(지도학습 회귀모델의 평가지표 X)
분석모형 리모델링에서 수행하는 활동
: 데이터 품질 검토, 분석 알고리즘 개선, 매개변수 최적화
- 분석 알고리즘 적합도 검정은 분석 모형 평가 과정에서 이루어짐
회귀분석에서 잔차진단의 유형
: 잔차의 정규성, 등분산성, 독립성 진단
(이상치 X)
- 일반적으로 분석 결과의 기여도 평가는 ROI(Return Of Investment, 투자수익률) 또는 업무 효율성 향상에 대한 비율로 측정
- 평행좌표계는 스타차트처럼 하나 이상의 대상에 대한 특징을 보여주는 것으로 데이터 값의 분포를 표현하기에는 적절하지 않다.
- 분포시각화 : 누적연속그래프, 파이차트
- 비교시각화 : 히트맵
- 공간시각화 : 카토그램
다차원 척도법
- 모든 변수를 비교해서 비슷한 대상을 그래프 상에서 가깝게 배치
- 대상들 사이의 상대적 위치를 통해 유사성을 쉽게 파악가능
누적히스토그램
- 데이터의 출현 빈도를 오른쪽으로 누적하면서 표시
- 마지막 막대는 전체 데이터의 총 수를 나타냄
범례
: 차트에 표현되는 기호나 선 등이 어떤 의미인지 설명하기 위해 사용하는 것
군집타당성지표
: 군집 간 거리, 군집의 분산, 군집의 지름
(군집의 평균X)
적합도 검정 = 범주형 변수에 관한 분석 방법
ex) 정규성 검정, 카이제곱 검정, 콜모고로프 스미르노프 검정
T검정 -> 연속형 변수에 활용
오차행렬(Confusion matrix)
: 훈련을 통한 예측 성능을 측정하기 위해 예측값과 실제값을 비교하기 위한 표를 명칭하는 것
결정계수
: 분석모델마다 평가되는 해석지표들이 다양한데 회귀모델에서의 해석지표로 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표
SVM : 비교시각화 기법의 산점도
KNN : 비교시각화 기법의 평행좌표계로써 변수들과의 연관성 및 그룹데이터의 경향성을 파악
의사결정나무 : 관계시각화 기법의 트리 다이어그램
회귀모델 : 관계시각화 기법의 히트맵
분석과제 선정을 위해 고려하는 항목
- 과제의 추진 시급성
- 분석모델의 구현 가능성
- 분석기회 발굴 위한 질문 구체화
cf ) 분석목적에 따른 분석과제 선정과 별개로 분석 결과의 기여도 평가 정의가 필요
과대적합 방지를 위한 기법
- 드롭아웃
: 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법으로 적은 수의 뉴런들로 학습을 진행할 때 시간이 오래 걸리는 것이 단점인 기법
- L1 규제
: 가중치의 절댓값에 비례하는 비용이 추가
- L2 규제
: 가중치의 제곱에 비례하는 비용이 추가, 가중치 감쇠라고도 불린다.
단계구분도
: 면적이 넓은 지역의 값이 전체를 지배하는 것처럼 보이는 시각적 왜곡이 발생 가능
공간시각화
: 실제 지도나 지도모양의 다이어그램을 배경으로 데이터의 위치를 시각화
스타차트
: 여러 개의 대상을 하나의 차트에 동시에 표현 가능
히트맵
: 여러 변수와 다수의 대상에 대해 하나의 표 형태로 표현 가능
초매개변수 (하이파라미터)
: 모델이 아닌 학습 알고리즘 자체를 조정하는 의미로 사람이 직접 설정하여 최적화하는 것
- 뉴런의 수, 배치(batch)의 크기, 학습률(learning rate), 가중치 감소시의 규제 강도(regularization strength) 등이 있다.
초매개변수 최적화 기법
: 미니배치 크기, 훈련반복 횟수, 은닉층 개수 조정 등이 있다.
(가중치 값 X)
딥러닝모델에 대한 시각화 방법
: 파라미터, 가중치 시각화 및 특징 차원 감소를 통해 노드-링크 다이어그램, 산포도, 차원축소
(산점도 X)
분석의 주요 목적
: 제품 및 절차 효율성, 고객 인사이트, 위기 관리시스템
(서비스 가이드라인 제정 X)
- 형태속성은 각각의 독립된 모양으로 데이터를 표현하는 것으로 연속형 데이터를 표현하기에 덕합하지 않다.
- 손실함수가 최소가 되는 가중치 값인 중심 점을 찾아 큰 가중치를 제한하는데 람다로 규제의 강도를 크게 하면 가중치 값이 0에 가까워진다.
- 분석 목적은 변하지 않으며, 목적을 달성하기 위한 분석 모델과 데이터, 알고리즘을 검토하고 개선
- 매개변수의 최적화는 학습(예측)모델과 실제값의 차이가 손실함수로 표현될 시 손실함수의 값을 최소화시키는 매개변수, 즉 가중치와 편향을 찾는 최적값을 탐색하는 과정이다.
분석모델별 결과해석
- 딥러닝 모델 해석에 사용하는 오차율은 상대오차나 평균 제곱근 편차를 사용
- 회귀분석모델의 잔차에는 패턴이나 추세가 있어서는 안된다.
- 군집분석모델은 연속형 변수의 경우 평균 또는 중앙값을 계산
- 연관분석모델은 지지도, 신뢰도 및 향상도가 높은 규칙들을 찾되 최소 기준점을 적용
'🚀 What I Studied > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 필기 3과목 '빅데이터 모델링' 정리 (0) | 2022.09.23 |
---|---|
[빅데이터분석기사] 필기 2과목 '빅데이터 탐색' 정리 (0) | 2022.09.23 |
[빅데이터분석기사] 필기 1과목 '빅데이터 분석기획' 정리 (0) | 2022.09.22 |
[빅데이터분석기사] 빅데이터 분석기사 필기 기출 정리 (1) | 2022.09.20 |