티스토리 뷰

빅데이터 분석기사 필기 기출 정리

 

군집분석

: 변수 또는 개체(item)들이 속한 모집단 또는 범주에 대한 사전 정보가 없는 경우에 관측값들 사이의 거리(또는 유사성)를 이용하여 변수 또는 개체들을 자연스럽게 몇 개의 그룹 또는 군집(cluster)으로 나누는 분석법으로 정의

 

 

- 단위(unit) : 관찰되는 항목 또는 대상을 지칭

- 관측값(observation) : 각 조사 단위별 기록정보 또는 특성

- 변수(variable) : 각 단위에서 측정된 특성 결과

- 원자료(raw data) : 표본에서 조사된 최초의 자료

 

 

정준분석

- 두 변수집단 간의 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용해 분석하는 방법

- 정준상관계수는 정준변수들 사이의 상관계수

- 두 집단에 속하는 변수들의 개수 중에서 변수의 개수가 적은 집단에 속하는 변수의 개수만큼의 정준변수 상이 만들어질 수 있다.

- 회귀분석의 경우 하나의 반응변수를 여러 개의 설명변수로 설명하고자 할 때, 가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면에 정준분석에서는 이와 같은 인과성이 없다.

 

 

명목자료(Nominal Data) :

질적자료의 한 종류로 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료

서열자료(Ordinal Data) :

질적자료, 수치나 기호나 서열을 나타내는 자료

구간자료(Interval Data):

수치자료의 한 종류로 명목자료, 서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해서 변수 간의 관계가 산술적인 의미를 가지는 자료

비율자료(Ratio Data) :

수치자료의 한 종류로 명목자료, 서열자료, 구간자료의 의미를 다 가지는 자료로서 수치화된 변수에 비율의 개념을 도입할 수 있는 자료

질적자료(Qualitative Data):

정성적 자료라고도 하며 자료르 범주의 형태로 분류,

분류의 편리상 부여된 수치의 크기자체에는 의미를 부여하지 않는 자료

 

 

사분위편차

1) 하한사분위수(Q1) 구하기

Q1의 위치 = (n+1) / 4

 

2) 상한 사분위수 Q3 구하기

Q3의 위치 = 3 * (n+1) / 4

 

-> 사분위편차 =  (Q3 - Q1)

 

 

탐색적 데이터 분석

- 수집한 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정

- 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상 이해 가능

- 문제점 발견 시 본 분석 전 데이터의 수집 의사를 결정 가능

- 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제정의 단계에서 인지 못한 새로운 양상·패턴을 발견 가능 -> 새로운 양상을 발견 시 초기설정 문제의 가설을 수정하거나 또는 새로운 가설을 설립 가능

 

 

피어슨 상관계수 

: 피어슨 상관계수는 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계 없음, -1은 완벽한 음의 선형 상관관계를 의미

 

 

표본추출오차

- 표본추출 시 표본의 크기보다는 대표성을 가지는 표본을 추출하는 것이 중요

- 과잉대표 : 중복선택 등의 원인으로 모집단이 반복, 중복된 데이터만으로 규정되는 현상

- 최소대표 : 실제모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상

- 최대대표라는 현상은 없음 

 

 

기각역

- 기각역 : 귀무가설을 기각하게 되는 검정통계량의 범위

- 임계치 : 주어진 유의수준에서 귀무가설의 채택과 기각에 관련된 의사결정을 할 때, 그 기준이 되는 점

- 양측검정 : 가설검정에서 기각영역이 양쪽에 있는 것

- 단측검정 : 가설검정이 기각영역의 어느 한쪽에만 있는 것

 

 

결측값 종류 

- 완전 무작위 결측은 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우로 정의

- 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우, 결측 데이터를 가진 모든 변수가 완전 무작위 결측이라면 대규모 데이터에서 단순 무작위 표본추출을 통해 처리 가능

- 무작위 결측(MAR) 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비 관측값들과는 연관되지 않은 경우

- 비 무작위 결측(NMAR)은 어떤 변수의 결측 데이터가 완전 무작위 결측(MCAR) 또는 무작위 결측(MAR)이 아닌 결측데이터로 정의하는 것

 

ex) 나이대별(X) 성별(Y)과 체중(Z)에 대해서 조사하려고 한다.

1) X,Y,Z와 관계없이 Z가 없는 경우 : 데이터 누락(응답없음) -> 완전 무작위 결측(MCAR)

2) 여성(Y)은 체중 공개를 꺼려하는 경향 : Z가 누락될 가능성이 Y에만 의존 -> 무작위 결측(MAR) 

3) 젊은(X) 여성(Y)의 경우는 체중공개를 꺼리는 경우가 더 높음 -> 무작위 결측(MAR)

4) 무거운(가벼운) 사람들은 체중 공개 가능성이 적음 : Z가 누락될 가능성이 Z값 자체에 관찰되지 않는 값에 달려있음 -> 비 무작위 결측(NMAR) 

 

 

- 점추정은 모집단의 모수를 하나의 값으로 추정해주는 것

- 구간추정은 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것

- 구간추정은 점추정에 오차의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것

 

 

요인분석

- 요인분석은 다수의 변수들 간이 관계를 분석하여 공통자원을 축약하는 통계분석 과정

- 독립변수, 종속변수 개념이 없다. 주로 기술 통계에 의한 방법을 이요

- 변수특성 파악을 위해 관련된 변수들이 묶임(군집)으로써 요인 간의 상호 독립성 파악이 필요

- 요인에 대한 중요도를 파악하고 필요가 없다면 제거하는 것도 필요

 

요인분석의 목적

변수특성파악 : 관련된 변수들의 묶음으로 상호독립특성을 파악하기 용이해진다.

측정항목의 타당성 평가 : 그룹이 되지 않은 변수의 특성을 구분할 수 있게 된다.

요인점수를 통한 변수 생성 : 회귀분석, 군집분석, 판별분석 등에 적용 가능한 변수를 생성할 수 있다.

- 요인분석의 목적에는 분포분석이 없다.

 

 

요약변수

- 수집된 정보를 분석에 맞게 종합한 변수

- 데이터 마트에서 가장 기본적인 변수

- 많은 분석 모델에서 공통으로 사용될 수 있어 재활용성이 높다.

cf) 보편적이고 전 데이터구간에 대표성을 가지는 변수생성을 위해 노력해야 한다. = 파생 변수 설명

 

주성분 분석(PCA : Principal Component Analysis)

- 분포된 데이터들의 특성을 설명할 수 있는 하나 또는 복수개의 특징을 찾는 것

- 서로 연관성이 있는 고차원 공간의 데이터를 선형 연관성이 없는 저차원(주성분)으로 변환하는 과정을 거친다.(직교변환 사용)

- 기존의 기본변수들을 새로운 변수의 세트로 변환하여 차원을 줄이되 기존 변수들의 분포특성을 최대한 보존하여 이를 통한 분석결과의 신뢰성을 확보

- 차원 축소에 폭넓게 사용 + 어떠한 사전적 분포 가정의 요구가 없다.

- 차원의 축소는 본래의 변수들이 서로 상관이 있을 때만 가능

 

 

불균형 데이터

: 클래스에 속한 데이터의 개수의 차이에 의해 발생하는 문제들을 불균형 데이터 문제 또는 비대칭 데이터 문제라고 한다.

 

 

이상치

- 자료처리오류(Data Processing error)  : 복수개의 데이터셋에서 데이터를 추출, 조합하여 분석 시, 분석 전의 전처리에서 발생하는 에러

- 비 모수적 이상치를 탐지하는 방법 중에는 산점도그림(Scatter Plot)을 이용한 방법이 있다.

- 의도적 아웃라이어의 예 : 남성의 키를 조사 시 의도적으로 키를 높게 기입하는 경우 등이 있다.

- 이상치가 비 무작위성(Non-Randomly)을 가지고 나타나게 되면 데이터의 정상성(Normality)감소를 초래하며 이는 데이터 자체의 신뢰성 저하로 연결될 가능성이 있다

<-> 정상성이 높아지면 데이터의 신뢰도가 높아진다. 

 

 

비정형 데이터

: 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장되거나 문서에 주석화된 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만든다.

 

 

위상적 공간타입

: 공간 객체 간 관계를 표현하며 방위, 공간 객체 간의 중첩, 포함, 교차, 분리 등과 같은 위치적 관계

 

 

가설검정

- 검정통계량의 표본분포에 따라 채택여부를 결정짓는 일련의 통계적 분석과정을 가설검정이라 하며 일반적으로 몇 단계의 절차를 거쳐 검정이 수행된다.

 

 

샘플링

- 언더샘플링 대표클래스 일부 만을 선택하고, 소수 클래스는 최대한 많은 데이터를 사용하는 방법

- 오버샘플링 소수클래스의 복사본을 만들어, 대표클래스의 수만큼 데이터를 만들어 주는 것

 

 

변수선택

- 전진 선택법 : 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함시키는 것

- 후진 선택법 : 전체모델에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수부터 순차적으로 분석모형에서 제외 시킨다. 

- 단계적 선택법 : 전진 선택법과 후진 선택법의 보완방법

- 전진/후진 선택벅 둘 다 한번 추가된 변수에 대해서 제거하지 않는 것이 원칙

 

 

가설검정

- 제1종 오류 : 귀무가설이 참일 때 귀무가설을 기각하도록 결정하는 오류

- 제2종 오류 : 귀무가설이 거짓인데 귀무가설을 채택할 오류

- 가설검정의 유의수준 : 귀무가설이 참인데도 이것을 기각하게 될 확률

 

 

다중회귀분석 기본 가정

- 회귀 모형은 모수에 대해 선형인 모형

- 오차항의 분산은 모든 관찰치에 대해 (시그마제곱)의 일정한 분산을 갖는다.

- 서로 다른 관찰치 간의 오차항은 상관이 없다. (오차항은 서로 독립이며, 공분산은 0)

- 오차항은 정규분포를 따르며 N(0,시그마제곱) 이다. 

 

 

일원분산

- 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석

- 종속변수(등간 척도)와 정수값을 갖는 요인변수가 각 하나여야 하고 요인변수가 정의되어야 한다.

- 단일용인변수(독립변수)에 의해 종속변수에 대한 평균치의 차이를 검정하는 데 이용

 

 

수치자료 : 수치의 크기에 의미를 부여할 수 있는 자료를 나타내며 세부적으로는 구간자료, 비율자료가 있다.

 

 

시간데이터

- 스냅샷 데이터 : 시간 개념이 필요하지 않아 거래, 유효시간을 미지원하는 데이터

- 이원시간 데이터 : 거래, 유효시간과 스냅샷데이터를 동시에 지원하는 데이터

- 거래 시간 : 관리 시스템을 통해 처리된 시간

- 유효 시간 : 객체가 발생하거나 소멸된 시간

 

 

데이터 마이닝

- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정

- 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적인  방법론이  쓰인다.

- 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축 가능

 

 

군집분석 중 비계층적 방법

- 자료의 산포를 나타내는 여러가지 측도를 이용해 이들 판정기준을 최적화시키는 방법으로 군집을 나누는 방법

- 한 번 분리된 개체도 반복적으로 시행하는 과정에서 재분류될 수 있는 것이 특징

 

 

단순확률 대치법(Single Stochastic Imputation)

: 평균대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법으로 Hot-deck 방법이라고도 한다.

확률추출에 의해서 전체 데이터 중 무작위로 대치하는 방법

 

평균 대치법(Mean Imputation)

: 관측 또는 실험되어 얻어진 자료의 적절한 평균값으로 결측값을 대치하는 방법

 

회귀 대치법(Regression Imputation)

: 회귀분석에 의한 결측치를 대치하는 방법을 조건부 평균 대치법이라고도 한다.

 

최근방 대치법(Nearest-Neighbor Imputation)

: 전체표본을 몇개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리한 후 결측값 바로 이전의 응답을 결측치로 대치,

응답값이 여러 번 사용될 가능성이 단점

 

 

일원분산

- 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석

- 종속변수(등간 척도)와 정수값을 갖는 요인변수가 각 하나여야 하고 요인변수가 정의되어야 한다.

- A반, B반, C반 간 성적의 평균 차이가 존재할 것이다도 일원분석의 예

 

 

시공간 정의언어

- 시공간테이블 인덱스 및 뷰(view)의 정의문, 변경문 등이 포함되어있다.

- 공간적 속성과 시간적 속성을 동시에 포함하며 시공간 테이블의 정의문은 점, 선, 면 등의 공간속성 타입이 추가

 

시공간 조작언어

- 객체의 삽입, 삭제, 변경 등의 검색문이 있다.

-  시간지원 연산자와 공간연산자를 포함하며 이를 통해 객체에 대한 공간관리와 이력정보를 제공

 

 

탐색적 분석의 절차

- 분석의 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 가지는지 확인

- 데이터의 문제성을 확인, 데이터의 결측치의 유무,

   이상치의 유무 등을 확인하고 추가적으로 분포상의 이상 형태, head 또는 tail 부분을 확인

- 데이터의 개별 속성 값이 예상한 범위 분포를 가지는지 확인

- 관계속성 확인 절차를 가진다. 즉, 개별 데이터 간의 속성 관찰에서 보지 못한 데이터 간의 속성을 확인

 

 

로그변환

- 로그를 취하면 그 분포가 정규 분포에 가깝게 분포하는 경우가 있다. 이런 분포를 로그정규분포를 가진다고 한다.

- 로그변환을 사용하는 데이터 중 대표적인 것은 주식가격의 변동성 분석

- 데이터 분포의 형태가 우측으로 치우친 경우 정규분포화를 위해 로그변환을 사용

 

 

이산확률분포 : 포아송분포

연속확률분포 : T-분포, 정규분포, 카이제곱분포

 

 

첨도, 왜도데이터의 분포모양에 해당된다. 중앙값은 전체변수의 범위에서 가운데가 아니라 관찰된 변수들 중의 가운데 값이므로 이상값의 영향을 받지 않는다.

 

 

스튜던트 t분포에서 자유도

- 자유도는 자료집단의 변수 중에서 자유롭게 선택될 수 있는 분포의 수

- 자유도가 클수록 정규분포에 모양이 수렴

- 자유도가 1보다 클 때만 스튜던트 t 분포에서 기대값은 0

- 스튜던트 t 분포는 정규분포의 평균 측정 시 주로 사용하는 분포, 분포의 모양은 Z-분포와 유사하다. 종 모양으로서 t = 0에 대하여 대칭을 이루는데 t-곡선의 모양을 결정하는 것은 자유도이다.

 

 

추출 모집단에 대해 사전지식이 많지 않은 경우 시행하는 방법 = 단순 무작위추출방법

 

 

확률

- 표본공간 S의 각 근원 사건이 일어날 가능성이 동등할 때, 사건 A에 대해 n(A)/n(S)를 사건 A의 수학적 확률

- 통계적 확률은 일반적인 자연 현상이나 사회 현상에서 일어날 가능성이 동일한 현상은 드물고 분명하지 않은 경우가 대부분이다.

- 이론적으로 값은 통계적 확률 시행을 무한 번 반복시행하면 수학적 확률을 값으로 수렴

 

 

모수와 모수추정

- 모수(parameter)는 모집단의 특성을 수치화하여 나타낸 것

- 모수의 추정향의 선택기준으로 불편성, 효율성, 일치성, 충분성이 있다.

- 충분성은 추정향이 모수에 대해 가장 많은 정보를 제공할 때 그 추정량은 충분추정량이 된다.

- 일치성 : 표본 크기가 증가할수록 좋은 추정값을 제시

 

 

 

- 차원의 증가는 분석모델 파라미터의 증가 및 파라미터 간의 복잡한 관계의 증가로 분석결과의 과적합 발생의 가능성(오적합X)이 커진다.

이것은 분석모형의 정확도(신뢰도) 저하를 발생시킨다.

 

 

 

 

댓글
최근에 올라온 글
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Total
Today
Yesterday