티스토리 뷰

데이터사이언스를 위한 통계학입문ⅠI

 

 

https://pabi.smartlearn.io/courses/course-v1:POSTECH+DSB112+P2203/about

 

데이터사이언스를 위한 통계학입문Ⅱ

 

pabi.smartlearn.io

 

 

 

VI. 현업 데이터 특성과 예측 모형

6.1 데이터 수집-random의 의미

 

양질의 데이터를 확보하는 것이 중요

-> ’대표성’, ‘랜덤’ 데이터

 

좋은 표본 : 모집단의 특징을 가능한 정확하게 반영한 표본

-> 표본 추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것

 

 

전수조사

: 연구대상집단의 모든 데이터 수집

표본 조사

: 연구대상집단 일부 데이터 수집

 

 

군집표본추출(cluster sampling)

: 각 군집이 동일한 특성을 갖고 있다고 하면 그 중 무작위로 cluster를 선택

 

층화표본추출(stratified sampling)

: 모집단 내 하위집단의 특성이 다를때  하위집단을 기반으로 표본을 선택

(좌) 군집표본 추출 (우) 층화표본 추출

 

 

 


 

6.2 예측 모형에서의 training 과 Test set

 

 

좋은 예측 모형 = 새로운 데이터가 들어왔을 때 정확하게 예측하는 모형

 

훈련 데이터와 검증 데이터

K- fold cross-validation(k = 3, 5 ,10) = 교차 타당성

  5-fold cross validation

 

 


 

댓글
최근에 올라온 글
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Total
Today
Yesterday