티스토리 뷰

빅데이터 분석기사 필기 기출 정리

2022-09-22 기출모의고사 결과

 

분석 변수의 전처리 방법

: 데이터 정제, 데이터 통합, 데이터 축소, 데이터 변환 (삭제 X)

 

 

개인정보 판단기준

- 생존하는 개인에 관한 정보

- 개인에 관한 정보 (법인 한정 X)

- 정보의 내용이나 형태 등은 제한이 없음

- 개인을 알아볼 수 있는 정보

- 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보도 포함

 

 

데이터 적재 완료 테스트를 위한 정형 데이터 체크리스트

: 테이블의 개수, 속성의 개수, 데이터 타입의 일치여부, 레코드 수 일치 여부 (파티션의 개수X)

 

 

데이터 비식별화 방법

: 가명처리 (휴리스틱 가명화, 암호화, 교환 방법), 총계처리, 데이터 삭제, 데이터 범주화(제어 라운딩), 데이터 마스킹

(데이터 표본화 X)

 

 

익명화(Anonymization)

: 사생활 침해를 방지하기 위해 데이터에 포함된 개인정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 방법

 

 

데이터 웨어하우스의 구성요소

: 데이터 모델, ETL, ODS, DW Meta Data, OLAP, 데이터 마이닝, 분석 TOOL과 경영기반 솔루션

(데이터 전처리X)

 

 

소셜 데이터 (내부 데이터 X)

 

상향식 접근 방식 : 데이터를 기반으로 문제의 재정의 및 해결방안 탐색

- 데이터 분석을 통해 원인을 추적하면서 문제를 도출하거나 재정의 가능

- 데이터 분석을 통해 생각지 못한 인사이트 도출 가능

- 비지도 학습 방법에 의해 수행되며, 시행착오를 통한 개선 가능

하향식 접근 방식 : 문제가 먼저 주어짐 -> 해법 찾아감

- 신상품 개발이나 전략 수립 등 중요한 의사결정이 필요할 때 사용

- 동적인 환경에서 발산과 수렴 단계를 반복적으로 수렴 단계를 반복적으로 수행하여 상호 보완

- 솔루션 도출은 유효하지만 새로운 문제탐색은 어렵다

 

 

데이터 수집기술

: 크롤링, 로그 수집기, 센서 네트워크, RSS, Reader/Open API, ETL

 

 

맵리듀스의 데이터 처리과정

- 데이터 분할 (split) -> 맵 처리(map) -> 셔플(shuffle) -> 리듀스 (reduce)

 

 

빅데이터 플랫폼의 부하 제어 기능

: 컴퓨팅 부하 제어, 네트워크 부하 제어, 저장 부하 제어 (분석 부하 제어 X)

 

 

분석작업 계획 수립 절차

: 프로젝트 소요비용 배분, 프로젝트 작업분할구조 수립, 프로젝트 업무 분장 계획 및 배분

(프로젝트 정의서 작성 X)

 

 

분석 로드맵 설정 시 세부적인 일정계획 수립 방안

- 반복적인 정련과정을 통해 프로젝트의 완성도를 높인다.

- 모델링 단계는 반복적으로 수행

- 순차형과 반복형을 혼합하여 사용

- 데이터 수집 및 확보와 데이터 준비 단계는 순차적으로 진행 (병렬 X)

 

 

2022-09-26 기출모의고사 결과

 

 

Soft skill : 리더십, 효과적인 의사소통, 팀워크, 시간 관리, 동기 부여 및 적응력이 포함

- 설득력 있는 전달

- 통찰력 있는 분석

- 다분야 간 협력

Hard skill : 실전 경험, 훈련, 또는 교육을 통해 얻어지는 기술

- 분석 기술에 대한 숙련

 

 

정보의 특징

: 정확성, 적시성, 적당성, 관련성 (일관성 X)

 

 

데이터 준비 단계의 세부 태스크

- 필요 데이터 정의

- 데이터 스토어 설계

- 데이터 수집 및 정합성 점검

데이터 분석 단계의 세부 태스크

- 분석용 데이터 준비

 

 

빅데이터 플랫폼의 요소기술

- 데이터 생성기술

- 데이터 수집기술

- 데이터 저장기술

- 데이터 공유기술

- 데이터 처리기술

- 데이터 분석기술

- 데이터 시각화 기술

(데이터 복구기술 X)

 

 

분석목표정의서의 구성요소

: 원천 데이터 조사, 분석 방안 및 적용 가능성 판단, 성과평가 기준 (데이터 분석과제 정의X)

 

 

비식별화 방법

- 가명처리 : 개인정보 중 주요 식별요소를 다른 값으로 대처하는 방법

ex) 휴리스틱 가명화, 암호화, 교환 방법 

- 총계처리 : 데이터의 총합 값을 보여 주고 개별 값을 보여주지 않는 방법

- 데이터 마스킹 : 개인을 식별하는 데 기여할 확률이 높은 주요 식별자를 보이지 않도록 처리하는 방법

- 데이터 범주화 : 데이터의 값을 범주의 값으로 변환하여 값을 숨기는 방법

 

 

난이도 평가요소

: 데이터 획득 비용, 데이터 가공 비용, 데이터 저장 비용, 분석 적용 비용, 분석 수준 

(분석 목표 가치 X)

 

 

 

- Optimization : 분석 주제와 방법을 모두 알고있는 때 가능

- Insight : 분석 주제는 정해지지 않았더라도 방법을 알고 있을 때 가능

- Solution : 분석 주제는 알지만 방법을 알지 못한 경우에도 찾을 수 있다

- Discovery : 분석 주제와 방법 모두 모르고 있더라도 가능

 

 

Planning -> Preparing -> Analyzing -> Developing -> Deploying

 

 

포트폴리오 사분면 분석기법

- 가장 우선적으로 분석 과제 적용이 필요한 영역은 3사분면

- 우선순위가 낮은 영역은 2사분면

- 적용 우선순위 기준을 시급성에 둘 경우 : 3사분면 -> 4사분면 -> 2사분면

- 적용 우선순위 기준을 난이도에 둘 경우 : 3사분면 -> 1사분면 -> 2사분면 

 

 

ETL 

: 원천 데이터로부터 필요 데이터를 추출하여 변환한 후 적재하는 과정을 나타내는 용어

 

 

SEMMA 분석 방법론

: 추출(sample) -> 탐색(explore) -> 수정(modify) -> 모델링(modeling) -> 평가(assess)

 

 

데이터 수집을 위한 시스템 구축 절차

: 수집 데이터 유형 파악 -> 수집 기술 결정 -> 아키텍처 수립 -> 하드웨어 구축 -> 실행환경 구축

 

 

 

2022-09-29 기출 모의고사 결과

 

개인정보 비식별화 절차

사전 검토 -> 비식별 조치 -> 적정성 평가 -> 사후관리

 

 

데이터 확보 계획 수립 시 분석 변수 점검항목

- 데이터 적성성

- 데이터 가용성 

- 기술적 타당성

- 대체 분석 데이터 유무에 대한 확인 팔요

(데이터 다양성 X)

 

 

NoSQL 데이터베이스 저장방식 종류 

- key - value 데이터베이스

- column - oriented 데이터베이스

- document 데이터베이스

 

 

분석 프로젝트가 갖는 속성

- 데이터 크기

- 데이터 복잡도

- 속도

- 분석모형의 복잡도

- 정확도와 정밀도 

 

 

분석 마스터 플랜 수립 시 적용 우선순위를 결정하는 주요요인

- 전략적 중요도

- 비즈니스 성과

- 실행 용이성

(업무 내재화 수준X)

 

 

데이터 기본 3법

1) 개인정보보호법

2) 정보총신망 이용촉진 및 정보보호 등에 관한 법률

3) 국가정보화 기본법

 

 

ROI의 투자비용 요소

: 데이터 크기, 데이터 형태, 데이터 속도

비즈니스 효과

: 데이터 가치

 

 

집중형 조직구조

- 전사 분석 업무를 별도의 분석 전담조직에서 수행

- 현업 부서의 분석 업무와 이원화될 가능성이 높다.

- 전략적 중요도에 따라 분석조직이 우선순위를 정하여 진행 가능

 

 

빅데이터 저장시스템 선정을 위한 기능성 비교분석 요소

: 데이터 모델, 확장성, 트랜잭션 일관성, 질의지원, 접근성

cf) 호환성 : 기존 시스템과의 연계성의 요소

 

 

 

2022-09-29 기출 모의고사 결과
2022-09-30 기출 모의고사 결과

 

 

분석 기획

: 분석 수행 시 분석 품질과 비용이라는 서로 상반되는 요소들을 고려하여 분석 작업을 반복할 필요는 있지만 분석 기획 단계에서 미리 반복 횟수를 정하여 제한하는 것은 바람직하지 않다.

 

 

분석 기획 시 목표 시점에 따른 분류 유형

- 단기적 접근 방식 = 당면한 과제를 빠르게 해결하기 위한 목적

- 중장기적 접근 방식 = 지속적인 분석 문화를 내재화하기 위한 목적

- 과제 중심적 접근 방식 = 명확한 해결을 위해 Quick-Win 방식으로 분석

- 혼합 방식 = 분석의 가치를 증명하고 이해관계자들의 동의를 얻기 위해 과제를 빠르게 해결하여 그 가치를 조기에 체험시키는 방식

 

 

비식별화된 개인정보의 재식별 가능성 검토 기법

: k-익명성, l-다양성, t-접근성

(s-보안성 X)

 

 

하향식 접근 방식의 4단계 구성요소

: 문제 탐색 -> 문제 정의 -> 해결방안 탐섹 -> 타당성 평가

 

 

빅데이터 플랫폼의 등장배경이 아닌 것 : 데이터 처리 유연성 증대

 

 

데이터 분석 과제 수행을 위한 필요역량

- 도메인 이슈 도출 역량

- 분석 목표 수립 역량

- 프로젝트 계획 수립 역량

(데이터 거버넌스 체계 수립 역량 X)

 

 

2022-09-30 기출 모의고사 풀이 (2)

 

집중형 조직구조

- 전사 분석 업무를 별도의 분석 전담조직에서 수행

- 현업 부서의 분석 업무와 이원화될 가능성이 높다.

- 전략적 중요도에 따라 분석조직이 우선순위를 정해 진행 가능하다.

<-> 분산형 조직구조 : 분석 결과를 현업에 빠르게 적용 가능

 

 

원천 데이터에 대한 정보를 습득하고자 할 때 필요한 정보

: 데이터의 수집 가능성, 데이터의 보안, 데이터의 정확성, 수집 난이도, 수집 비용 항목

(데이터의 신속성 X)

 

 

빅데이터가 만들어 낸 변화

- 사전처리 -> 사후처리

- 인과관계 -> 상관관계

- 표본조사 -> 전수조사

- 데이터의 질보다 양의 중요도 증가

 

 

데이터 산업 구조의 분류

: 인프라 / 서비스

 

 

분석 기획 단계 세부 태스크

- 프로젝트 정의 및 계획 수립

- 비즈니스 이해 및 범위 설정

- 프로젝트 위험계획 수립

(모델 발전계획 수립X)

 

 

- 반정형 데이터 : 웹로그, 센서 데이터, JSON 파일

- 비정형 데이터 : 이미지나 동영상으로 존재하는 데이터

- 반정형 데이터는 메타 구조를 가지는 데이터

 

 

마지막 기출 모의고사 결과!

 

KDD 분석 방법론

: 데이터셋 선택(Selection) -> 데이터 전처리(Preprocessing) -> 데이터 변환(Transformation) -> 데이터 마이닝(Data mining) -> 결과 평가 (Interpretation / Evaluation)

 

 

 

- 데이터 산업 구조 중 서비스 영역에서는 데이터 자체나 데이터를 가공한 정보를 제공한다.

따라서 새로운 아이디어는 서비스를 제공방는 사람이 생각해야 한다.

 

 

- 개인정보보호법의 개인정보 범위에서는 개인정보를 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보라고 정의 (신용정보의 이용 및 보호에 관한 법률 X)

 

 

 

댓글
최근에 올라온 글
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Total
Today
Yesterday