
빅데이터 분석기사 필기 기출 정리 군집분석 : 변수 또는 개체(item)들이 속한 모집단 또는 범주에 대한 사전 정보가 없는 경우에 관측값들 사이의 거리(또는 유사성)를 이용하여 변수 또는 개체들을 자연스럽게 몇 개의 그룹 또는 군집(cluster)으로 나누는 분석법으로 정의 - 단위(unit) : 관찰되는 항목 또는 대상을 지칭 - 관측값(observation) : 각 조사 단위별 기록정보 또는 특성 - 변수(variable) : 각 단위에서 측정된 특성 결과 - 원자료(raw data) : 표본에서 조사된 최초의 자료 정준분석 - 두 변수집단 간의 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용해 분석하는 방법 - 정준상관계수는 정준변수들 사이의 상관계수 - 두 집단에 속하는 변수들의..

빅데이터 분석기사 필기 기출 정리 분석 변수의 전처리 방법 : 데이터 정제, 데이터 통합, 데이터 축소, 데이터 변환 (삭제 X) 개인정보 판단기준 - 생존하는 개인에 관한 정보 - 개인에 관한 정보 (법인 한정 X) - 정보의 내용이나 형태 등은 제한이 없음 - 개인을 알아볼 수 있는 정보 - 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보도 포함 데이터 적재 완료 테스트를 위한 정형 데이터 체크리스트 : 테이블의 개수, 속성의 개수, 데이터 타입의 일치여부, 레코드 수 일치 여부 (파티션의 개수X) 데이터 비식별화 방법 : 가명처리 (휴리스틱 가명화, 암호화, 교환 방법), 총계처리, 데이터 삭제, 데이터 범주화(제어 라운딩), 데이터 마스킹 (데이터 표본화 X) 익명화(Anonymizatio..

https://cbt.youngjin.com/ 이기적 CBT, 영진닷컴 cbt.youngjin.com CRISP-DM 분석 방법론 업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개 정성적 데이터 vs 정량적 데이터 - 정성적 데이터 : 언어나 문자로 표현된 데이터, 비정형 데이터로 비구조화된 데이터 ex) 쿠팡의 리뷰, 인터뷰, 언론 보도 - 정량적 데이터 : 수치, 도형, 기호 등 바로 측정할 수 있는 데이터 key-value 데이터베이스 - 단순한 데이터 모델에 기반 - 관계형 데이터베이스보다 확장성 뛰어남 - 질의응답 시간도 빠름 계층적 프로세스 모델 단계(Phase) -> 태스크(Task) -> 스텝(Step) NoSQL 데이터베이스 저장 방식 - key-value ..