[MIT] Data Science - 6. Monte Carlo Simulation
Data Science, ML/MIT- Introduction to Data Science

[MIT] Data Science - 6. Monte Carlo Simulation

Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)

 

Introduction to Computational Thinking and Data Science

6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol

ocw.mit.edu

MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료

MIT6_0002F16_lec6.pdf
0.61MB

 

핵심 키워드

  • 몬테 카를로 시뮬레이션(Monte Carlo Simulation)
  • 큰 수의 법칙
  • 도박사의 오류
  • 평균으로의 회귀
  • 분산과 표준편차
  • 확률 분포

 

학습 내용

몬테 카를로 시뮬레이션(Monte Carlo Simulation)

  • 추리통계학을 이용해 알 수 없는 값을 추정하는 방법
  • 핵심 개념은 모집단
    • 모집단 : 가능한 예시들의 전체 집합
    • 모집단부터 적당한 부분 집합을 뽑음
      • 표본의 통계를 통해 모집단을 추론
      • 일반적으로 모집단은 매우 큰 집단이고 표본은 그것보다 작은 집단
      • 무작위로 표본을 추출하면 그 표본이 모집단과 동일한 특성을 갖는 경향이 있음
      • 우리가 취할 수 있는 수많은 랜덤 워크, 만개를 보지 않고 100개 추출해서 평균 계산한 후 기대값 계산
      • 표본 추출이 무작위어야 함! 무작위로 뽑은 표본이 아니면 모집단과 같은 특성을 가질 것이라고 기대할 수 근거가 없음

 

큰 수의 법칙 또는 베르누이의 법칙

  • 실제 확률이 동일한 독립 사건이 반복되면 실행 횟수가 무한대로 갈수록 p와 다른 결과가 나오는 횟수와 비율이 0으로 수렴
  • 공정한 룰렛 휠을 무한번 돌리면 기댓값이 0이 됨

 

도박사의 오류

  • 잘못된 결과의 오류
  • 도박사의 오류에 의하면 사람들은 기대와 다른 이변이 일어나면 미래에 다시 정상으로 돌아올 것이라고 믿음
  • 서로 영향을 끼치지 않는 일련의 확률적 사건들에서 상관 관계를 찾는 오류를 발생

 

평균으로의 회귀

  • 부모가 둘 다 평균보다 키크면 자식이 부모보다 작을 가능성이 높다
  • 역으로 부모가 평균보다 작으면 자식은 평균보다 클 가능성이 높다
  • 도박사의 오류와 미묘하게 다름
  • 극단적인 사건 다음에 오는 사건은 덜 극단적인 경향이 있다
  • 공정 룰렛 휠을 10번 돌려 빨간색이 나온다면(극단적 사례) 10번에서는 빨간색이 10보다 적게 나온다는 개념. 덜 극단적인 사건이다
  • 극단적인 결과보다는 20번 돌린 것의 평균 결과가 50% 빨간색이라는 평균값에 더 가까울 것
  • 더 많은 표본을 취할수록 평균에 더 가까워짐

 

분산과 표준편차

  • 기저 확률의 변이성에 따라 필요한 표본의 수가 달라짐
  • 데이터의 변이성을 알기 위해 알아야 되는 개념 : 분산
    • 평균으로부터 모두의 거리를 구하여 단순히 다 더함
    • 마지막으로 집합의 크기(전체 항목) 개수로 나눔
    • 단지 항목의 개수가 많다는 이유로 분산이 높아지는 것을 막기 위해서, 항목의 개수로 정규화
    • 제곱을 하는 이유 :
      • 차이가 양수든 음수든 상관이 없다는 것, 평균으로부터 어느 쪽에 있는지보다 근처에 있지 않다는 것이 중요함
      • 거리를 제곱해 이상치를 특별히 강조함(장점이자 단점)
  • 표준편차
    • 분산의 제곱근
    • 표준편차 그 자체로는 의미없는 숫자
    • 항상 평균을 고려해 생각해야 함
  • 신뢰 구간
    • 우리는 종종 평균만 가지고 예측하려고 함
    • 값을 모르는 매개변수를 설명할 때 기댓값과 같은 특정 값을 주는 것보단 신뢰 구간으로 표현하는 것이 좋음
    • 신뢰구간은 모르는 값이 포함될 가능성이 높은 구간과 그 구간에 존재할 확률을 알려줌
    • 결과가 -1%과 +1일 사이일 것이라 예측하고 전체 게임 중 95%는 이 예측이 맞을 것이라고 기대하는 것
  • 신뢰 구간은 어떻게 계산할까?
    • 경험적인 규칙을 사용
    • 데이터를 얻어 평균을 찾고 표준편차를 계산하면 데이터의 58%는 평균값 앞뒤로 1 표준편차 범위 이내에 있음
  • 경험적인 규칙을 적용하기 위한 가정
    • 평균 추정 오차가 0
      • 높게 예측할 가능성과 낮게 예측할 가능성이 같아야 함
      • 이런 류의 실험과 시뮬레이션에선 타당한 가정
      • 오차에 편향이 없다는 가정
    • 오차의 분포가 정규분포
      • 가우스 분포, 정규분포
    • 이 두 가정하에 경험적 규칙은 항상 유효 

 

확률 분포

  • 확률 분포 : 확률 변수가 서로 다른 값을 가지는 상대적 빈도를 나타내는 개념
  • 확률 변수
    • 이산 확률 변수 
      • 유한 집합의 값들을 가짐
      • 동전을 던지면 앞면과 뒷면이란 2개의 값만 나옴
    • 연속 확률 변수
      • 확률밀도함수(PDF)를 사용
      • 두 값 사이 어딘가에 존재할 확률을 알려줌

 

 

 

몬테 카를로 방법 - 나무위키

이 저작물은 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외) 기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권

namu.wiki

 

도박사의 오류 - 나무위키

賭博師의 誤謬, (영어) Gambler's Fallacy; Monte Carlo Fallacy 서로 영향을 끼치지 않는 일련의 확률적 사건들[1] 에서 상관관계를 찾아내려 하는 사고의 오류를 이야기한다. 즉, 확률적 결과값을 갖는 어

namu.wiki

 

 

실습 코드

 

MIT_Reference_code.zip

 

drive.google.com

 

728x90