Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)
MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료
핵심 키워드
- 표본 추출(Sampling)
- 단순 임의 추출(Random sampling)
- 층화 추출(Stratified sampling)
- 왜도(Skewness)
- 표준 오차(Standard Error)
학습 내용
추리 통계학 복습
- 1개 이상의 임의 표본을 조사하여 모집단을 추정하는 것
- 몬테 카를로 시뮬레이션으로 매우 많은 임의 표본을 생성하고 그것을 이용해 신뢰 구간을 계산할 수 있음
- 만약 시뮬레이션으로 표본을 생성할 수 없다면
- 표본 추출을 사용해야 함
표본 추출(Sampling)
- 모집단에서 하나 이상의 무작위로 추출된 표본을 보는 것
- 시뮬레이션을 하지 않을 때 표본 추출을 어떻게 하는가?
- 확률 표본 추출
- 모집단의 모든 요소들은 표본으로 추출될 수 있는 0이 아닌 확률을 가지고 있음
- 시간 전부를 단순 임의 추출에 적용
- 모집단의 각 요소들은 표본으로 추출될 확률이 모두 같음, 편향이 없음
- 항상 적절한 것은 아님
- 층화추출(stratified sampling)
- 모집단을 세부 그룹으로 나눈 후 각 세부 그룹에서의 단순 임의 추출
- 세부 그룹의 크기와 비율을 동일하게 적용
- 세부 그룹이 있을 때 사용
- 모집단의 크기에 따라 비율적으로 대표
- 이 방법은 표본의 필요한 크기를 줄이는 데에도 사용할 수 있음
- 시간 전부를 단순 임의 추출에 적용
중심 극한 정리 복습
- 표본 집합에 있는 표본들의 평균(표본평균)은 거의 정규분포를 따름
- 이 정규분포의 평균은 모집단의 평균에 가까움
- 표본평균의 분산은 모집단의 분산을 표본의 크기로 나눈 값에 가까움
- 평균의 표준오차(SEM, SE) 계산
- SE=\sigma/\sqrt{n} SE=σ/√n
왜도(Skewness)
- 확률 분포도의 비대칭 정도를 측정
- 왜도가 클수록 좋은 근사치를 얻기 위해 더 많은 표본이 필요함
- 모집단이 아주 기울어지고 분포도가 아주 비대칭이면 더 많은 표본이 필요
- 만약 아주 균등하다면 적은 표본이 필요
- 얼마나 많은 표본이 필요할지 정할 때에 모집단의 왜도의 추정치가 필요함
단일 표본으로부터 평균 추정
- 1) 모집단의 왜도 추정값에 따라 표본의 크기 결정
- 2) 모집단으로부터 임의 표본 추출
- 3) 표본의 평균과 표준편차 계산
- 4) 표본의 표준편차를 이용해 표준오차 추정
- 5) 표준오차 추정값을 통해 표본평균 주변의 신뢰구간 생성
실습 코드
728x90
'Data Science, ML > MIT- Introduction to Data Science' 카테고리의 다른 글
[MIT] Data Science - 10. Understanding Experimental Data (0) | 2021.05.28 |
---|---|
[MIT] Data Science - 9. Understanding Experimental Data (cont.) (0) | 2021.05.27 |
[MIT] Data Science - 7. Confidence Intervals (0) | 2021.05.27 |
[MIT] Data Science - 6. Monte Carlo Simulation (0) | 2021.05.26 |
[MIT] Data Science - 5. Random Walks (0) | 2021.05.26 |