
빅데이터 분석기사 필기 기출 정리 분석 모니터링 : 분석 서비스의 안정적인 운영과 현행화된 데이터의 수집, 저장, 관리, 분석 결과 활용 등을 위한 지속적인 활동 AUC(Area Under the Curve) : 평가모델의 ROC곡선의 하단 면적을 뜻하며 ROC곡선이 직선에서 멀어질수록 성능이 더 뛰어남 ROC(Reciever Operating Characteristic) : 모든 임계값에서 분류 모델의 성능을 보여주는 그래프 산점도 : 다수의 객체를 군집으로 나누어 그룹 클러스터별 단위로 분석하는 군집분석에서 적용되는 시각화 기법 시간시각화 - 막대그래프, 점/선 그래프 분포시각화 - 파이차트, 누적연속그래프 비교시각화 - 히트맵 공간시각화 - 카토그램 확률적 경사 하강법 (SGD : stochasti..

빅데이터 분석기사 필기 기출 정리 앙상블 분석 - 부스팅(Boosting) : 가중치를 활용하여 연속적인 Weak learner를 생성하고 이를 통해 강분류기를 만드는 방법 - 소프트 보팅(soft voting) : 최종 결과물이 나올 확률 값을 다 더해서 최종 결과물에 대한 각각의 확률을 구한 뒤 최종 값을 도출해내는 방법 - 배깅 : 샘플을 여러 번 뽑아(bootstrap) 각 모델을 학습시켜 결과물을 집계(Aggregation)히는 방법 ex) 랜덤 포레스트(Random Forest) 앙상블 기법 - 약학습기 : 무작위 선정이 아닌 성공확률이 높은 즉 오차율이 일정 이하(50% 이하)인 학습 규칙 - 강학습기 : Weak Learner로부터 만들어내는 강력한 학습 규칙 - 한 개의 Single Le..

빅데이터 분석기사 필기 기출 정리 군집분석 : 변수 또는 개체(item)들이 속한 모집단 또는 범주에 대한 사전 정보가 없는 경우에 관측값들 사이의 거리(또는 유사성)를 이용하여 변수 또는 개체들을 자연스럽게 몇 개의 그룹 또는 군집(cluster)으로 나누는 분석법으로 정의 - 단위(unit) : 관찰되는 항목 또는 대상을 지칭 - 관측값(observation) : 각 조사 단위별 기록정보 또는 특성 - 변수(variable) : 각 단위에서 측정된 특성 결과 - 원자료(raw data) : 표본에서 조사된 최초의 자료 정준분석 - 두 변수집단 간의 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용해 분석하는 방법 - 정준상관계수는 정준변수들 사이의 상관계수 - 두 집단에 속하는 변수들의..

빅데이터 분석기사 필기 기출 정리 분석 변수의 전처리 방법 : 데이터 정제, 데이터 통합, 데이터 축소, 데이터 변환 (삭제 X) 개인정보 판단기준 - 생존하는 개인에 관한 정보 - 개인에 관한 정보 (법인 한정 X) - 정보의 내용이나 형태 등은 제한이 없음 - 개인을 알아볼 수 있는 정보 - 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보도 포함 데이터 적재 완료 테스트를 위한 정형 데이터 체크리스트 : 테이블의 개수, 속성의 개수, 데이터 타입의 일치여부, 레코드 수 일치 여부 (파티션의 개수X) 데이터 비식별화 방법 : 가명처리 (휴리스틱 가명화, 암호화, 교환 방법), 총계처리, 데이터 삭제, 데이터 범주화(제어 라운딩), 데이터 마스킹 (데이터 표본화 X) 익명화(Anonymizatio..

https://cbt.youngjin.com/ 이기적 CBT, 영진닷컴 cbt.youngjin.com CRISP-DM 분석 방법론 업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개 정성적 데이터 vs 정량적 데이터 - 정성적 데이터 : 언어나 문자로 표현된 데이터, 비정형 데이터로 비구조화된 데이터 ex) 쿠팡의 리뷰, 인터뷰, 언론 보도 - 정량적 데이터 : 수치, 도형, 기호 등 바로 측정할 수 있는 데이터 key-value 데이터베이스 - 단순한 데이터 모델에 기반 - 관계형 데이터베이스보다 확장성 뛰어남 - 질의응답 시간도 빠름 계층적 프로세스 모델 단계(Phase) -> 태스크(Task) -> 스텝(Step) NoSQL 데이터베이스 저장 방식 - key-value ..