[Statistics] 현업 데이터 특성과 예측 모형

티스토리 뷰

🚀 What I Studied/Statistics

박낑깡이 2022. 10. 5. 22:33

데이터사이언스를 위한 통계학입문ⅠI

데이터사이언스를 위한 통계학입문Ⅱ

pabi.smartlearn.io

6.1 데이터 수집-random의 의미

양질의 데이터를 확보하는 것이 중요

-> ’대표성’, ‘랜덤’ 데이터

좋은 표본 : 모집단의 특징을 가능한 정확하게 반영한 표본

-> 표본 추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것

전수조사

: 연구대상집단의 모든 데이터 수집

표본 조사

: 연구대상집단 일부 데이터 수집

군집표본추출(cluster sampling)

: 각 군집이 동일한 특성을 갖고 있다고 하면 그 중 무작위로 cluster를 선택

층화표본추출(stratified sampling)

: 모집단 내 하위집단의 특성이 다를때 그 하위집단을 기반으로 표본을 선택

6.2 예측 모형에서의 training 과 Test set

좋은 예측 모형 = 새로운 데이터가 들어왔을 때 정확하게 예측하는 모형

훈련 데이터와 검증 데이터

K- fold cross-validation(k = 3, 5 ,10) = 교차 타당성

5-fold cross validation