[MIT] Data Science - 7. Confidence Intervals
Data Science, ML/MIT- Introduction to Data Science

[MIT] Data Science - 7. Confidence Intervals

Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)

 

Introduction to Computational Thinking and Data Science

6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol

ocw.mit.edu

MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료

MIT6_0002F16_lec7 (1).pdf
1.51MB

핵심 키워드

  • PDF(확률 밀도 함수)
  • 중심 극한 정리(Central Limit Theorem)

학습 내용

경험적인 규칙의 전제

  • 지난 강의에서 나온 경험적인 규칙의 전제
    • 평균 추정 오차는 0
    • 오차의 분포는 정규분포(가우스 분포)

확률 밀도 함수(PDF)

  • 분포는 확률밀도함수로 정의
    • 이 함수로 어떤 확률변수가 임의의 두 값 사이에 있을 확률을 구할 수 있음
    • 이것은 최소부터 최대값 사이에 놓여있는 x축의 값을 가진 곡선으로 정의
    • 두 값 사이의 곡선 아래의 넓이가 그 범위안에 속해있을 확률을 도출
  • 누적분포함수의 도함수
  • 구하려는 것 : 어떠한 값이 표시한 범위 내에 해당할 확률을 구하고 싶으면 확률은 이 곡선 하단의 면적이자 적분 값

 

중심 극한 정리(CLT, central limit theorem)

  • 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리
  • 우리의 현실은 모든 분포가 정규분포는 아님
  • 충분한 표본을 가지고 있다면 표본의 평균값은 대략적으로 정규 분포
  • 원래 값의 분포도 모양은 상관이 없음
    • 충분히 큰 표본의 평균을 측정한다면 CLT(중심극한정리)는 신뢰구간을 계산하는데 경험적인 규칙을 사용할 수 있도록 함
  • 원주율 구하는 예시
    • 원의 둘레를 지름으로 나눈 값
    • 많은 바늘들을 임의로 떨어트림
    • 어디에 떨어졌는지 보고, 몇개는 정사각형 안이지만 원 안에 떨어지는 것도 있음
    • 원 안의 바늘과 정사각형 안의 바늘의 비율은 정사각형의 면적과 원의 면적의 비율과 정확하게 일치할 것
    • 파이는 정사각형의 넓이를 정사각형 안의 바늘의 갯수로 나눈 값
    • 논리 : 많은 바늘을 떨어트린 후, 떨어진 위치를 보고 더하여 그 값으로 신기하게도 실제 파이 값을 알 수 있음
    • 1의 확률로 실제 파이의 값이 두 값 사이에 있는 말은 사실
    • 0.95의 확률로 실제 파이의 값은 두 값 사이에 있다는 말도 사실
      • 시뮬레이션을 통해서만 알 수 있음

 

실습 코드

 

MIT_Reference_code.zip

 

drive.google.com

 

728x90