티스토리 뷰

빅데이터 분석기사 필기 기출 정리

 

앙상블 분석

- 부스팅(Boosting) : 가중치를 활용하여 연속적인 Weak learner를 생성하고 이를 통해 강분류기를 만드는 방법

- 소프트 보팅(soft voting) : 최종 결과물이 나올 확률 값을 다 더해서 최종 결과물에 대한 각각의 확률을 구한 뒤 최종 값을 도출해내는 방법

- 배깅 : 샘플을 여러 번 뽑아(bootstrap) 각 모델을 학습시켜 결과물을 집계(Aggregation)히는 방법 ex) 랜덤 포레스트(Random Forest)

 

앙상블 기법

- 약학습기 : 무작위 선정이 아닌 성공확률이 높은 즉 오차율이 일정 이하(50% 이하)인 학습 규칙

- 강학습기 : Weak Learner로부터 만들어내는 강력한 학습 규칙

- 한 개의 Single Learner에 의한 분석보다는 더 나은 분석성능을 이끌어 낼 수 있다.

- 동일한 알고리즘을 사용해서 여러 모델을 학습하는 개념

 

 

자기회귀모형(AR : Autoregressive Model)

: 일정 시점전의 자료가 현재 자료에 영향을 준다는 가정하에 만들어진 시계열 예측 모형

 

자기회귀누적이동평균모형(ARIMA)

: 비정상성을 가지는 시계열 데이터 분석에 많이 사용

 

자기회귀이동평균모형(ARMA)

: 이동평균모형과 결합된 형태로 나타내어 진다. (AR(q)모형 + MA(q)모형)

 

분해법 

: 시계열이 체계적 성분과 불규칙적 성분으로 이루어져 있다는 가정 하에 체계적 성분을 시계열로부터 분리하여 분석/예측을 목적으로 하는 기법

 

순환신경망(RNN : Recurrent Neural Network)

- 인공신경망을 구성하는 유닛 사이의 연결이 Directed Cycle을 구성하는 신경망

- 앞먹임 신경망과 달리, 임의의 입력을 처리하기 위해 신경망 내부의 메모리를 활용 가능

- 필기체 인식과 같은 분야에 활용되고 있고, 높은 인식률을 나타냄

- 기존의 뉴럴 네트워크와 다른점은 '기억'을 갖고 있다는 점인데, 네트워크의 기억은 지금까지의 입력데이터를 요약한 정보

 

 

R

- 객체지향 언어

- 풍부한 시각화 라이브러리

- 웹브라우저 연동 모듈 제공

- 대용량 메모리 처리가 어렵고, 보안 기능이 취약

 

 

- 의사결정나무에서 더이상 분리가 일어나지 않고 현재의 마디가 끝마지가 되도록 하는 규칙 = 정지 규칙

 

 

셀프트레이닝

: 라벨되지 않은 이미지들을 예측, 가장 높은 확률값의 이미지에 신규 라벨링 이미지로 분류 뒤 반복 훈련하는 대표적인 준지도학습 방법론

 

정보 획득

: 정보이론에서 순도가 증가하고 불확실성이 감소하는 것을 의미하는 용어

 

 

인공신경망과 딥러닝

- 딥러닝은 인공신경망의 단점 등이 극복되면서 부각된 기계학습

- 딥러닝은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습 알고리즘의 집합으로 정의

- 인공신경망과 딥러닝은 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 이야기할 수 있다.

 

 

 

GAN(Generative Adversarial Network)

: GAN은 2014년 NIPS에서 Ian Goodfellow가 발표한 회귀생성 모델로서 분류를 담당하는 모델(판별자 D) 회귀생성을 담당하는 두 개의 모델(생성자 G)로 구성되어 있다. 생성자 G와 판별자 D가 서로의 성능을 개선해 적대적으로 경쟁해 나가는 모델로 적대적 학습에서는 분류모델을 먼저 학습시킨 후, 생성모델을 학습시키는 과정을 서로 주고받으면서 반복

 

셀프트레이닝

: 라벨되지 않은 이미지들을 예측, 가장 높은 확률 값의 이미지에 신규 라벨링 이미지로 분류 뒤 반복 훈련하는 대표적인 준지도 학습 방법론

 

 

다중공선성

: 통계학 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제

 

 

과대적합 방지법

: 데이터 분할, k-fold 교차검증, 정규화

(통계검증 X)

 

 

과대적합

: 훈련 데이터에 대해서는 높은 정확도를 나타내나 테스트 데이터나 새로운 데이터에 대해서는 예측을 못할 때

 

 

종속변수가 없을 때 사용할 수 있는 알고리즘

: 군집분석, 연관분석, 주성분분석

종속변수는 결과값 변수로 지도학습 기반 분석모형에 해당되는 것

(분류분석 X)

 

 

활성화 함수

 

ReLU(렐루) : 활성화 함수 중 0보다 크면 입력값을 그대로 출력하고 0이하의 값만 0으로 출력하는 함수

 

 

K-평균 군집 

: 비계층적 군집분석은 분석 전에 군집의 수를 정해놓고 군집의 중심으로부터 가까운 순으로 군집에 들어갈 데이터를 정하는 방법을 의미한다. 각각 중심에 모인 데이터를 같은 군집으로 할당하는 대표적인 군집 분석 알고리즘

 

 

범주형 분석 방법

- 빈도분석질적 자료를 대상으로 빈도와 비율을 계산할 때 쓰인다.

- T검정독립변수가 범주형(두개의 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법으로 두 집단간의 평균 비교 등에 사용

- 독립변수가 범주형(두개 이상 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법으로 분산분석이 사용

 

 

시계열 자료에 대한 정상성(Stationarity)

- 정상성을 가진다는 의미는 시계열 데이터가 평균과 분산이 일정한 경우를 지칭

- 시계열 데이터가 정상성을 가지면 분석이 용이한 형태로 볼 수 있다.

- 시계열 데이터가 평균이 일정하지 않으면 차분(difference)을 통해 정상성을 가지도록 할 수 있다.

- 시계열 데이터가 분산이 일정하지 않으면 변환(transformation)을 통해 정상성을 가지도록 할 수 있다.

 

 

오토인코더(AutoEncoder)

- 인코더를 통해 입력 데이터에 대한 특징 추출

- 구조 : 뉴럴네트워크 두 개(인코더 + 디코더)가 뒤집어 붙은 형태

- 출력값을 입력값의 근사로 하는 함수를 학습

- 디코더를 통해 원본 데이터를 재구성하는 학습방식

 

 

SVM

: 지도학습 기법으로써 고차원 또는 무한차원 공간에서 초평면을 찾아 분류와 회귀를 수행하며 여백(마진) 최대화를 추구하는 알고리즘

SVM의 핵심적 특징은 기존 분류기가 오류율 최소화에 있다면 여백(마진) 최대화로 일반화 능력의 극대화를 추구하는 점으로 마진이 가장 큰 초평면을 분류기(classifier)로 사용할 때 새로운 자료에 대한 오분류가 가장 낮아진다.

또한 경계면과 수진인 법선벡터를 w라고 할 때 마진은 2/(|W|) 로 계산

 

 

로지스틱 회귀분석 (종범독연분이)

종속 변수 : 범주형 변수, 독립 변수 : 연속형 변수,  분포 : 이항분포

<-> t-검정 = 독립변수 : 범주형, 종속변수 : 연속형

 

군집분석 

: 판별분석과 달리 집단이 사전에 정의되어 있지 않다.

 

 

다중회귀분석 결과 해석 순서

: 다중공선성 진단 -> 회귀계수 유의성 확인 -> 수정된 결정계수 확인 -> 모형의 적합도 평가

 

 

뉴런의 연결방법

- 층간 연결 : 서로 다른 층에 존재하는 뉴런과 연결

- 층내 연결 : 동일 층 내의 뉴런과의 연결

- 순환 연결 : 어떠한 뉴런의 출력이 자기 자신에게 입력되는 연결

 

 

분석모형 종류

: 예측분석 모형, 현황진단 모형, 최적화분석 모형

 

 

텍스트 마이닝

: 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에 숨겨진 의미를 발견하는 기법,

인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용해 데이터를 처리하는 전처리가 필요

 

오피니언 마이닝

: 사람들의 주관적인 의견을 통계/수치화하여 객관적인 정보로 바꾸는 기술,

어떤 사안이나 인물에 대한 사람들의 의견 뿐만 아니라 감정과 태도도 분석하기 때문에 감정 분석이라고도 불린다.

 

리얼리티 마이닝

: 통화/메시징 등의 커뮤니케이션 데이터, gps/wifi 등의 위치 데이터,

이를 통해 사회적 행위를 마이닝하고 사용자 행동 모델링이나 라이프 로그도 얻어내는 것을 목표로 한다.

 

 

신경망 알고리즘 학습 프로세스

: 미니배치 - 가중치 매개변수 기울기 산출 - 매개변수 갱신

 

 

테스트(test) 데이터

: 데이터 분석의 분할 부문에서 일반화된 분석모형을 검증하기 위해 분할되는 데이터 명칭

 

 

활성화 함수

: 신경망학습 구성요소 중 입력신호의 총합을 출력신호로 변환하는 기능이 있는 부분

 

 

신뢰수준

: 통계검정에서 가설을 검정할 시 어느 정도로 검정할 지에 대한 수준으로 표본 추출 시 모수를 포함할 구간의 비율

 

 

오차역전파

: 가중치 매개변수의 기울기를 미분을 통해 진행하는 것은 시간비용이 크므로 오차를 출력층에서 입력층으로 전달, 연쇄법칙을 활용하여 가중치와 편향을 계산, 업데이트하는 기법

 

 

나이브 베이즈 분류

- 분류기를 만들 수 있는 간단한 기술로 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용해 훈련

- 나이브 베이즈 분류의 장점으로 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적다.

- 나이브 베이즈 분류는 베이즈 정리를 적용한 확률 분류기를 지칭

- 나이브 베이즈 분류기는 공통적으로 모든 특성 값은 서로 독립임을 가정

 

 

분석모형 종류

: 예측분석 모형, 현황진단 모형, 최적화분석 모형

(의사결정 모형X)

 

 

가설검정의 절차

: 유의 수준결정 -> 검정 통계량의 설정 -> 기각역의 설정 -> 검정통계량 계산 -> 통계적 의사결정

(통계추정 X)

 

 

빈도분석 : 질적 자료를 대상으로 빈도와 비율을 계산할 때 쓰인다.

카이제곱검정 : 두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법

 

 

의사결정나무의 대표적 알고리즘인 CART는 불순도 측도로 범주형 또는 이산형일 경우 지니 지수를, 

연속적인 경우 분산의 감소량을 이용한 이진분리를 활용한다.

 

 

분석모형 정의를 위한 사전 판단기준에 대한 세부설명

- 필요성 : 추진관점에서 분석과제가 필요한지 판단

- 추진시급성 : 당장 해소되어야 할지 여부 판단, 장기과제 성격 분리

- 모델확장성 : 분석모델 자체가 아닌 과제가 시번과제로 끝나지 않고 전체 데이터 모델로 확장 가능한지 판단

- 구현가능성 : 과제 구현에 대해 어려움이 없는지 현실성 판단

 

 

 

의사결정나무의 요소별 설명

- 자식마디 (child node) : 하나의 마디로부터 분리된 2개 이상의 마디

- 가지 (branch) : 하나의 마디로부터 끝 마디까지 연결된 마디

- 부모마디 (parent node) : 자식마디의 상위 마디

- 깊이 (depth) : 가지를 이루는 마디의 개수

 

 

다변량 분산분석

- 두 개 이상의 범주형 종속변수와 다수의 계량적 독립변수간의 관련성을 동시에 알아볼 때 이용되는 통계적 방법

- 두 개 이상의 계량적 종속변수에 대한 각 집단의 반응치의 분산에 대한 가설을 검증하는데 매우 유용

- 일변량 분산분석의 확장된 형태로 분산을 기준으로 집단간의 통계적 연관성의 가설을 검증하는데 사용

 

<->  로지스틱 회귀분석 

: 분석하고자 하는 대상들이 두 집단으로 나누어진 경우 개별관측치들이 어느 집단으로 분류될 수 있는지를 분석할 때 사용

 

 

 

회귀분석의 기본적인 가정

- 선형성 : 독립변수와 종속변수가 선형적이어야 함

- 잔차 정규성 : 잔차의 기댓값은 0이며 정규분포를 이루어야 함

- 다중공산성 : 3개 이상의 독립변수간의 상관관계로 인한 문제가 없어야 한다.

- 잔차 등분산성 : 잔차들의 분산이 일정해야 하며 1이 될 필요는 없다.

 

 

 

댓글
최근에 올라온 글
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Total
Today
Yesterday