티스토리 뷰

https://pabi.smartlearn.io/courses/course-v1:POSTECH+DSB111+P2203/about 

 

데이터사이언스를 위한 통계학입문Ⅰ

 

pabi.smartlearn.io

 

데이터사이언스를 위한 통계학입문Ⅰ

 

 

통계 기초가 부족한 것 같아서 청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC) 에서 제공하는 '데이터사이언스를 위한 통계학입문Ⅰ' 강의를 들으며 통계학에 대한 기초를 다지기로 했다.

 

 


 

I. 데이터 과학과 통계

1.1 데이터 과학이란 무엇인가

 

 

데이터 분석 (Data analytics)

 

데이터 분석에는 다음과 같은 것들이 포함되어 있다. 

1. 데이터 큐레이션 (data curation) : 데이터 추출, 변환, sql, r python
2. 데이터 시각화 (data visualization) 
3. 통계 모형, 인공지능 : t-검정, 회귀분석, 머신러닝

 

 

 

즉, 데이터 과학의 목적은

데이터 분석을 통해 새로운 사실을 발견하고 인사이트를 창출하는 것이다.

 

 

데이터 시각화(Data visualization)

데이터 시각화 예시

 

- 데이터 분석 결과를 쉽게 이해할 수 있도록 보여주는 것 
- 그래프, 도표, 이미지, 단어 구름 등을 통해 한눈에 이해할 수 있도록 하는 것

 

 

 

핀란드의 의료데이터 프로젝트 (FinnGen)

 

핀란드의 의료데이터 프로젝트 (FinnGen)

 

핀젠(FinnGen)은 2017년도에 시작된 핀란드의 대규모 정밀의료 프로젝트이다. 이 프로젝트는 게놈 정보와 핀란드 국민의 헬스케어 정보를 결합시켰다. 특히 이 프로젝트의 차별성은 대부분의 헬스케어 정보가 질병을 갖고 있는 개인들(diseased individuals)로부터 수집되었고 수집된 정보가 핀란드 병원 바이오뱅크(biobank) 네트워크를 통하여 이루어진다는 점이다. 즉, 핀 젠 프로젝트는 유전적 연관성과 질병을 연구하기 위한 중요한 프로젝트이다.

 

- 핀란드인(Finnish) + 유전자(Genome) 합성어
- 자발적 참여자의 유전자 정보를 수집하고 환자의 의료정보까지 통합 구축
- 6개월 마다 업데이트 -> 전세계 연구자와 공유
- 관절염/당뇨병 등 자가면역질환 연구 수행 중 -> 개인 맞춤형 약 개발 추진

 

 

 


 

1.2  통계가 상식이 된 사회

 

 

  • 통계가 왜 필요한가? = 데이터를 올바르게 다를 줄 알면 무엇이 더 좋아질까?

 

통계는 왜 필요한가?에 대한 답변으로 통계는 올바른 의사결정을 돕는다를 말할 수 있다.

이것이 가능한 이유는 빅데이터를 통해 

 

1. 요약된 정보제공

2. 과거 데이터를 통해 미래를 예측

3. 데이터에 숨겨진 패턴 발견

할 수 있고 이 모든 활동은 올바른 의사결정으로 이어지기 때문이다.



📌요약

- 개인의 일상활동은 데이터화를 통해 예측분석이 가능하도록 수량화, 객관화되어진다.
- 통계는 수많은 데이터로부터 요약된 정보를 제공, 미래 데이터를 예측, 숨겨진 패턴을 발견함으로써 올바른 의사결정을 돕는다.
- 통계치는 금융권의 관리전략, 정부 정책 수립, 법정 소송에서의 근거자료 등으로 활용될 수 있다.

 

 

 


 

1.3  데이터 분석과 윤리

 

 데이터 정직성

  • 왜 신뢰할 수 없을까?

1. 데이터를 잘못 수집 (언제, 어디서, 어떻게(방법))
2. 데이터를 잘못 보관 (storage)

 

  • 데이터 선택 시 고려 사항

1. 대표성
2. 비편향성
3. (확률적) 랜덤 

 

이 세 가지 조건이 모두 충족되었을 때 -> 유의미한 데이터 분석 가능

 

 

통계치 해석 : 데이터 시각화의 오남용

 

미국, 일본, 독일, 한국의 최근 5년간 실업률 그래프

 

직관적으로 보면 미국, 일본, 독일 실업률 하강 + 한국의 실업률이 더 높고 불안정하게 상승

하지만, 그래프 y축의 범위가 동일하지 않으므로, 일관성있는 척도를 사용하고 있는 것이라 볼 수 없다.

 

y축을 동일한 범위로 적용했을 때

 


위 그래프에서 보는 것처럼 한국의 실업률이 미국과 독일에 비해 높은편이 아니다.


-> 잘못된 데이터 시각화는 왜곡된 해석과 정보 제공

 

 

📌요약

- 데이터과학의 윤리는 데이터를 올바르게 분석할 뿐만 아니라 올바른 방법으로 데이터를 수집해야 함을 의미
- 정직하지 못한 데이터의 주요 원인은 데이터 분석자의 무지함, 비윤리성, 환경의 제약에 의함
- 데이터 수집 시 너무 적은 양의 데이터, 편향된 표본 추출, 데이터의 왜곡 및 훼손에 주의 
- 결측치 문제도 고려

 

댓글
최근에 올라온 글
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Total
Today
Yesterday