티스토리 뷰
데이터사이언스를 위한 통계학입문ⅠI
https://pabi.smartlearn.io/courses/course-v1:POSTECH+DSB112+P2203/about
데이터사이언스를 위한 통계학입문Ⅱ
pabi.smartlearn.io
VI. 현업 데이터 특성과 예측 모형
6.1 데이터 수집-random의 의미
양질의 데이터를 확보하는 것이 중요
-> ’대표성’, ‘랜덤’ 데이터
좋은 표본 : 모집단의 특징을 가능한 정확하게 반영한 표본
-> 표본 추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것
전수조사
: 연구대상집단의 모든 데이터 수집
표본 조사
: 연구대상집단 일부 데이터 수집
군집표본추출(cluster sampling)
: 각 군집이 동일한 특성을 갖고 있다고 하면 그 중 무작위로 cluster를 선택
층화표본추출(stratified sampling)
: 모집단 내 하위집단의 특성이 다를때 그 하위집단을 기반으로 표본을 선택
6.2 예측 모형에서의 training 과 Test set
좋은 예측 모형 = 새로운 데이터가 들어왔을 때 정확하게 예측하는 모형
훈련 데이터와 검증 데이터
K- fold cross-validation(k = 3, 5 ,10) = 교차 타당성
5-fold cross validation
'🚀 What I Studied > Statistics' 카테고리의 다른 글
[Statistics] 통계검정방법 (1) | 2022.09.26 |
---|---|
[Statistics] 빅데이터 분석에서 확률과 분포 (0) | 2022.09.20 |
[Statistics] 데이터 시각화와 통계적 해석 (0) | 2022.09.18 |
[Statistics] 빅데이터 탐색의 첫걸음 (1) | 2022.09.16 |
[Statistics] 데이터 과학과 통계 (0) | 2022.09.07 |
댓글