[MIT] Data Science - 8. Sampling and Standard Error
Data Science, ML/MIT- Introduction to Data Science

[MIT] Data Science - 8. Sampling and Standard Error

Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)

 

Introduction to Computational Thinking and Data Science

6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol

ocw.mit.edu

MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료

MIT6_0002F16_lec8.pdf
1.39MB

핵심 키워드

  • 표본 추출(Sampling)
  • 단순 임의 추출(Random sampling)
  • 층화 추출(Stratified sampling)
  • 왜도(Skewness)
  • 표준 오차(Standard Error)

학습 내용

추리 통계학 복습

  • 1개 이상의 임의 표본을 조사하여 모집단을 추정하는 것
  • 몬테 카를로 시뮬레이션으로 매우 많은 임의 표본을 생성하고 그것을 이용해 신뢰 구간을 계산할 수 있음
  • 만약 시뮬레이션으로 표본을 생성할 수 없다면
    • 표본 추출을 사용해야 함

 

표본 추출(Sampling)

  • 모집단에서 하나 이상의 무작위로 추출된 표본을 보는 것
  • 시뮬레이션을 하지 않을 때 표본 추출을 어떻게 하는가?
    • 확률 표본 추출
    • 모집단의 모든 요소들은 표본으로 추출될 수 있는 0이 아닌 확률을 가지고 있음
      • 시간 전부를 단순 임의 추출에 적용
        • 모집단의 각 요소들은 표본으로 추출될 확률이 모두 같음, 편향이 없음
        • 항상 적절한 것은 아님
      • 층화추출(stratified sampling)
        • 모집단을 세부 그룹으로 나눈 후 각 세부 그룹에서의 단순 임의 추출
        • 세부 그룹의 크기와 비율을 동일하게 적용
        • 세부 그룹이 있을 때 사용
        • 모집단의 크기에 따라 비율적으로 대표
        • 이 방법은 표본의 필요한 크기를 줄이는 데에도 사용할 수 있음

중심 극한 정리 복습

  • 표본 집합에 있는 표본들의 평균(표본평균)은 거의 정규분포를 따름
  • 이 정규분포의 평균은 모집단의 평균에 가까움
  • 표본평균의 분산은 모집단의 분산을 표본의 크기로 나눈 값에 가까움
  • 평균의 표준오차(SEM, SE) 계산
    •  SE=\sigma/\sqrt{n}  SE=σ/n  

 

왜도(Skewness)

  • 확률 분포도의 비대칭 정도를 측정
    • 왜도가 클수록 좋은 근사치를 얻기 위해 더 많은 표본이 필요함
    • 모집단이 아주 기울어지고 분포도가 아주 비대칭이면 더 많은 표본이 필요
    • 만약 아주 균등하다면 적은 표본이 필요
  • 얼마나 많은 표본이 필요할지 정할 때에 모집단의 왜도의 추정치가 필요함

 

단일 표본으로부터 평균 추정

  • 1) 모집단의 왜도 추정값에 따라 표본의 크기 결정
  • 2) 모집단으로부터 임의 표본 추출
  • 3) 표본의 평균과 표준편차 계산
  • 4) 표본의 표준편차를 이용해 표준오차 추정
  • 5) 표준오차 추정값을 통해 표본평균 주변의 신뢰구간 생성

 

실습 코드

 

MIT_Reference_code.zip

 

drive.google.com

 

728x90