
빅데이터 분석기사 필기 기출 정리 군집분석 : 변수 또는 개체(item)들이 속한 모집단 또는 범주에 대한 사전 정보가 없는 경우에 관측값들 사이의 거리(또는 유사성)를 이용하여 변수 또는 개체들을 자연스럽게 몇 개의 그룹 또는 군집(cluster)으로 나누는 분석법으로 정의 - 단위(unit) : 관찰되는 항목 또는 대상을 지칭 - 관측값(observation) : 각 조사 단위별 기록정보 또는 특성 - 변수(variable) : 각 단위에서 측정된 특성 결과 - 원자료(raw data) : 표본에서 조사된 최초의 자료 정준분석 - 두 변수집단 간의 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용해 분석하는 방법 - 정준상관계수는 정준변수들 사이의 상관계수 - 두 집단에 속하는 변수들의..

빅데이터 분석기사 필기 기출 정리 분석 변수의 전처리 방법 : 데이터 정제, 데이터 통합, 데이터 축소, 데이터 변환 (삭제 X) 개인정보 판단기준 - 생존하는 개인에 관한 정보 - 개인에 관한 정보 (법인 한정 X) - 정보의 내용이나 형태 등은 제한이 없음 - 개인을 알아볼 수 있는 정보 - 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보도 포함 데이터 적재 완료 테스트를 위한 정형 데이터 체크리스트 : 테이블의 개수, 속성의 개수, 데이터 타입의 일치여부, 레코드 수 일치 여부 (파티션의 개수X) 데이터 비식별화 방법 : 가명처리 (휴리스틱 가명화, 암호화, 교환 방법), 총계처리, 데이터 삭제, 데이터 범주화(제어 라운딩), 데이터 마스킹 (데이터 표본화 X) 익명화(Anonymizatio..

https://cbt.youngjin.com/ 이기적 CBT, 영진닷컴 cbt.youngjin.com CRISP-DM 분석 방법론 업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개 정성적 데이터 vs 정량적 데이터 - 정성적 데이터 : 언어나 문자로 표현된 데이터, 비정형 데이터로 비구조화된 데이터 ex) 쿠팡의 리뷰, 인터뷰, 언론 보도 - 정량적 데이터 : 수치, 도형, 기호 등 바로 측정할 수 있는 데이터 key-value 데이터베이스 - 단순한 데이터 모델에 기반 - 관계형 데이터베이스보다 확장성 뛰어남 - 질의응답 시간도 빠름 계층적 프로세스 모델 단계(Phase) -> 태스크(Task) -> 스텝(Step) NoSQL 데이터베이스 저장 방식 - key-value ..

데이터사이언스를 위한 통계학입문Ⅰ https://pabi.smartlearn.io/courses/course-v1:POSTECH+DSB111+P2203/about 데이터사이언스를 위한 통계학입문Ⅰ pabi.smartlearn.io IV. 빅데이터 분석에서 확률과 분포 4.1 확률의 기초개념 통계 : 데이터를 수집, 처리, 분석, 활용하는 지식 -> 실제 얻어진 데이터를 바탕으로 정보를 도출 확률 : 어떤 특정한 사건이 일어날 가능성을 0과 1사이의 값으로 나타낸 것 -> 관측하기 전에 있어서 가능성을 논하는 것 통계에서 필요한 확률 - 확률, 사건, 표본공간 확률 : 어떤 특정한 사건이 일어날 가능성을 0과 1사이의 값으로 나타낸 것 사건 : 표본공간에서 관심의 대상인 부분집합 표본공간 : 확률 실험의 ..

3단원 Chapter 1) 논리 데이터 저장소 확인 1. 관계해석 : 관계 데이터의 연산을 표현하는 방법으로, 원하는 정보를 정의할 때는 계산 수식을 사용 - 관계 데이터 모델의 제안자인 codd가 수학에 가까운 기반을 두고 특별히 관계 데이터베이스를 위해 제안하여 탄생 - 프레디킷 해석에 기반한 언어이며, 비절차적 언어 - 튜플 관계해석과 도메인 관계해석이 있다. 대칭키 알고리즘 2. IDEA : Xuejia Lai와 James Messey 가 만든 알고리즘으로 PES(Proposed Encryption Standard)에서 IPES(Improved PES)로 변경되었다가, 1991년에 제작된 블록 암호 알고리즘으로 현재 국제 데이터 암호화 알고리즘으로 사용되고 있다. 64비트 블록을 128비트의 ke..

데이터사이언스를 위한 통계학입문Ⅰ https://pabi.smartlearn.io/courses/course-v1:POSTECH+DSB111+P2203/about 데이터사이언스를 위한 통계학입문Ⅰ pabi.smartlearn.io III. 데이터 시각화와 통계적 해석 3.1 데이터 시각화 데이터 시각화 : 데이터 분석 결과를 쉽게 이해할 수 있도록 보여주는 것 데이터 분석 단계 수집 (Data Gathering) 정제 (Data Processing) 시각화 (Data Visualization) 예측모형/분석 (Data Analysis) 효과적인 데이터 시각화의 조건 어떤 메세지를 전달할 것인지 결정 (what) 핵심 내용을 제외한 나머지는 생략 최선의 표현 방법을 선택 (How) 단순, 명료하게 디자인 ..