티스토리 뷰
빅데이터 분석기사 필기 기출 정리
분석 변수의 전처리 방법
: 데이터 정제, 데이터 통합, 데이터 축소, 데이터 변환 (삭제 X)
개인정보 판단기준
- 생존하는 개인에 관한 정보
- 개인에 관한 정보 (법인 한정 X)
- 정보의 내용이나 형태 등은 제한이 없음
- 개인을 알아볼 수 있는 정보
- 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보도 포함
데이터 적재 완료 테스트를 위한 정형 데이터 체크리스트
: 테이블의 개수, 속성의 개수, 데이터 타입의 일치여부, 레코드 수 일치 여부 (파티션의 개수X)
데이터 비식별화 방법
: 가명처리 (휴리스틱 가명화, 암호화, 교환 방법), 총계처리, 데이터 삭제, 데이터 범주화(제어 라운딩), 데이터 마스킹
(데이터 표본화 X)
익명화(Anonymization)
: 사생활 침해를 방지하기 위해 데이터에 포함된 개인정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 방법
데이터 웨어하우스의 구성요소
: 데이터 모델, ETL, ODS, DW Meta Data, OLAP, 데이터 마이닝, 분석 TOOL과 경영기반 솔루션
(데이터 전처리X)
소셜 데이터 (내부 데이터 X)
상향식 접근 방식 : 데이터를 기반으로 문제의 재정의 및 해결방안 탐색
- 데이터 분석을 통해 원인을 추적하면서 문제를 도출하거나 재정의 가능
- 데이터 분석을 통해 생각지 못한 인사이트 도출 가능
- 비지도 학습 방법에 의해 수행되며, 시행착오를 통한 개선 가능
하향식 접근 방식 : 문제가 먼저 주어짐 -> 해법 찾아감
- 신상품 개발이나 전략 수립 등 중요한 의사결정이 필요할 때 사용
- 동적인 환경에서 발산과 수렴 단계를 반복적으로 수렴 단계를 반복적으로 수행하여 상호 보완
- 솔루션 도출은 유효하지만 새로운 문제탐색은 어렵다
데이터 수집기술
: 크롤링, 로그 수집기, 센서 네트워크, RSS, Reader/Open API, ETL
맵리듀스의 데이터 처리과정
- 데이터 분할 (split) -> 맵 처리(map) -> 셔플(shuffle) -> 리듀스 (reduce)
빅데이터 플랫폼의 부하 제어 기능
: 컴퓨팅 부하 제어, 네트워크 부하 제어, 저장 부하 제어 (분석 부하 제어 X)
분석작업 계획 수립 절차
: 프로젝트 소요비용 배분, 프로젝트 작업분할구조 수립, 프로젝트 업무 분장 계획 및 배분
(프로젝트 정의서 작성 X)
분석 로드맵 설정 시 세부적인 일정계획 수립 방안
- 반복적인 정련과정을 통해 프로젝트의 완성도를 높인다.
- 모델링 단계는 반복적으로 수행
- 순차형과 반복형을 혼합하여 사용
- 데이터 수집 및 확보와 데이터 준비 단계는 순차적으로 진행 (병렬 X)
Soft skill : 리더십, 효과적인 의사소통, 팀워크, 시간 관리, 동기 부여 및 적응력이 포함
- 설득력 있는 전달
- 통찰력 있는 분석
- 다분야 간 협력
Hard skill : 실전 경험, 훈련, 또는 교육을 통해 얻어지는 기술
- 분석 기술에 대한 숙련
정보의 특징
: 정확성, 적시성, 적당성, 관련성 (일관성 X)
데이터 준비 단계의 세부 태스크
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
데이터 분석 단계의 세부 태스크
- 분석용 데이터 준비
빅데이터 플랫폼의 요소기술
- 데이터 생성기술
- 데이터 수집기술
- 데이터 저장기술
- 데이터 공유기술
- 데이터 처리기술
- 데이터 분석기술
- 데이터 시각화 기술
(데이터 복구기술 X)
분석목표정의서의 구성요소
: 원천 데이터 조사, 분석 방안 및 적용 가능성 판단, 성과평가 기준 (데이터 분석과제 정의X)
비식별화 방법
- 가명처리 : 개인정보 중 주요 식별요소를 다른 값으로 대처하는 방법
ex) 휴리스틱 가명화, 암호화, 교환 방법
- 총계처리 : 데이터의 총합 값을 보여 주고 개별 값을 보여주지 않는 방법
- 데이터 마스킹 : 개인을 식별하는 데 기여할 확률이 높은 주요 식별자를 보이지 않도록 처리하는 방법
- 데이터 범주화 : 데이터의 값을 범주의 값으로 변환하여 값을 숨기는 방법
난이도 평가요소
: 데이터 획득 비용, 데이터 가공 비용, 데이터 저장 비용, 분석 적용 비용, 분석 수준
(분석 목표 가치 X)
- Optimization : 분석 주제와 방법을 모두 알고있는 때 가능
- Insight : 분석 주제는 정해지지 않았더라도 방법을 알고 있을 때 가능
- Solution : 분석 주제는 알지만 방법을 알지 못한 경우에도 찾을 수 있다
- Discovery : 분석 주제와 방법 모두 모르고 있더라도 가능
Planning -> Preparing -> Analyzing -> Developing -> Deploying
포트폴리오 사분면 분석기법
- 가장 우선적으로 분석 과제 적용이 필요한 영역은 3사분면
- 우선순위가 낮은 영역은 2사분면
- 적용 우선순위 기준을 시급성에 둘 경우 : 3사분면 -> 4사분면 -> 2사분면
- 적용 우선순위 기준을 난이도에 둘 경우 : 3사분면 -> 1사분면 -> 2사분면
ETL
: 원천 데이터로부터 필요 데이터를 추출하여 변환한 후 적재하는 과정을 나타내는 용어
SEMMA 분석 방법론
: 추출(sample) -> 탐색(explore) -> 수정(modify) -> 모델링(modeling) -> 평가(assess)
데이터 수집을 위한 시스템 구축 절차
: 수집 데이터 유형 파악 -> 수집 기술 결정 -> 아키텍처 수립 -> 하드웨어 구축 -> 실행환경 구축
개인정보 비식별화 절차
사전 검토 -> 비식별 조치 -> 적정성 평가 -> 사후관리
데이터 확보 계획 수립 시 분석 변수 점검항목
- 데이터 적성성
- 데이터 가용성
- 기술적 타당성
- 대체 분석 데이터 유무에 대한 확인 팔요
(데이터 다양성 X)
NoSQL 데이터베이스 저장방식 종류
- key - value 데이터베이스
- column - oriented 데이터베이스
- document 데이터베이스
분석 프로젝트가 갖는 속성
- 데이터 크기
- 데이터 복잡도
- 속도
- 분석모형의 복잡도
- 정확도와 정밀도
분석 마스터 플랜 수립 시 적용 우선순위를 결정하는 주요요인
- 전략적 중요도
- 비즈니스 성과
- 실행 용이성
(업무 내재화 수준X)
데이터 기본 3법
1) 개인정보보호법
2) 정보총신망 이용촉진 및 정보보호 등에 관한 법률
3) 국가정보화 기본법
ROI의 투자비용 요소
: 데이터 크기, 데이터 형태, 데이터 속도
비즈니스 효과
: 데이터 가치
집중형 조직구조
- 전사 분석 업무를 별도의 분석 전담조직에서 수행
- 현업 부서의 분석 업무와 이원화될 가능성이 높다.
- 전략적 중요도에 따라 분석조직이 우선순위를 정하여 진행 가능
빅데이터 저장시스템 선정을 위한 기능성 비교분석 요소
: 데이터 모델, 확장성, 트랜잭션 일관성, 질의지원, 접근성
cf) 호환성 : 기존 시스템과의 연계성의 요소
분석 기획
: 분석 수행 시 분석 품질과 비용이라는 서로 상반되는 요소들을 고려하여 분석 작업을 반복할 필요는 있지만 분석 기획 단계에서 미리 반복 횟수를 정하여 제한하는 것은 바람직하지 않다.
분석 기획 시 목표 시점에 따른 분류 유형
- 단기적 접근 방식 = 당면한 과제를 빠르게 해결하기 위한 목적
- 중장기적 접근 방식 = 지속적인 분석 문화를 내재화하기 위한 목적
- 과제 중심적 접근 방식 = 명확한 해결을 위해 Quick-Win 방식으로 분석
- 혼합 방식 = 분석의 가치를 증명하고 이해관계자들의 동의를 얻기 위해 과제를 빠르게 해결하여 그 가치를 조기에 체험시키는 방식
비식별화된 개인정보의 재식별 가능성 검토 기법
: k-익명성, l-다양성, t-접근성
(s-보안성 X)
하향식 접근 방식의 4단계 구성요소
: 문제 탐색 -> 문제 정의 -> 해결방안 탐섹 -> 타당성 평가
빅데이터 플랫폼의 등장배경이 아닌 것 : 데이터 처리 유연성 증대
데이터 분석 과제 수행을 위한 필요역량
- 도메인 이슈 도출 역량
- 분석 목표 수립 역량
- 프로젝트 계획 수립 역량
(데이터 거버넌스 체계 수립 역량 X)
집중형 조직구조
- 전사 분석 업무를 별도의 분석 전담조직에서 수행
- 현업 부서의 분석 업무와 이원화될 가능성이 높다.
- 전략적 중요도에 따라 분석조직이 우선순위를 정해 진행 가능하다.
<-> 분산형 조직구조 : 분석 결과를 현업에 빠르게 적용 가능
원천 데이터에 대한 정보를 습득하고자 할 때 필요한 정보
: 데이터의 수집 가능성, 데이터의 보안, 데이터의 정확성, 수집 난이도, 수집 비용 항목
(데이터의 신속성 X)
빅데이터가 만들어 낸 변화
- 사전처리 -> 사후처리
- 인과관계 -> 상관관계
- 표본조사 -> 전수조사
- 데이터의 질보다 양의 중요도 증가
데이터 산업 구조의 분류
: 인프라 / 서비스
분석 기획 단계 세부 태스크
- 프로젝트 정의 및 계획 수립
- 비즈니스 이해 및 범위 설정
- 프로젝트 위험계획 수립
(모델 발전계획 수립X)
- 반정형 데이터 : 웹로그, 센서 데이터, JSON 파일
- 비정형 데이터 : 이미지나 동영상으로 존재하는 데이터
- 반정형 데이터는 메타 구조를 가지는 데이터
KDD 분석 방법론
: 데이터셋 선택(Selection) -> 데이터 전처리(Preprocessing) -> 데이터 변환(Transformation) -> 데이터 마이닝(Data mining) -> 결과 평가 (Interpretation / Evaluation)
- 데이터 산업 구조 중 서비스 영역에서는 데이터 자체나 데이터를 가공한 정보를 제공한다.
따라서 새로운 아이디어는 서비스를 제공방는 사람이 생각해야 한다.
- 개인정보보호법의 개인정보 범위에서는 개인정보를 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보라고 정의 (신용정보의 이용 및 보호에 관한 법률 X)
'🚀 What I Studied > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 필기 4과목 '빅데이터 결과 해석' 정리 (0) | 2022.09.23 |
---|---|
[빅데이터분석기사] 필기 3과목 '빅데이터 모델링' 정리 (0) | 2022.09.23 |
[빅데이터분석기사] 필기 2과목 '빅데이터 탐색' 정리 (0) | 2022.09.23 |
[빅데이터분석기사] 빅데이터 분석기사 필기 기출 정리 (1) | 2022.09.20 |