Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)
MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료
핵심 키워드
- 몬테 카를로 시뮬레이션(Monte Carlo Simulation)
- 큰 수의 법칙
- 도박사의 오류
- 평균으로의 회귀
- 분산과 표준편차
- 확률 분포
학습 내용
몬테 카를로 시뮬레이션(Monte Carlo Simulation)
- 추리통계학을 이용해 알 수 없는 값을 추정하는 방법
- 핵심 개념은 모집단
- 모집단 : 가능한 예시들의 전체 집합
- 모집단부터 적당한 부분 집합을 뽑음
- 표본의 통계를 통해 모집단을 추론
- 일반적으로 모집단은 매우 큰 집단이고 표본은 그것보다 작은 집단
- 무작위로 표본을 추출하면 그 표본이 모집단과 동일한 특성을 갖는 경향이 있음
- 우리가 취할 수 있는 수많은 랜덤 워크, 만개를 보지 않고 100개 추출해서 평균 계산한 후 기대값 계산
- 표본 추출이 무작위어야 함! 무작위로 뽑은 표본이 아니면 모집단과 같은 특성을 가질 것이라고 기대할 수 근거가 없음
큰 수의 법칙 또는 베르누이의 법칙
- 실제 확률이 동일한 독립 사건이 반복되면 실행 횟수가 무한대로 갈수록 p와 다른 결과가 나오는 횟수와 비율이 0으로 수렴
- 공정한 룰렛 휠을 무한번 돌리면 기댓값이 0이 됨
도박사의 오류
- 잘못된 결과의 오류
- 도박사의 오류에 의하면 사람들은 기대와 다른 이변이 일어나면 미래에 다시 정상으로 돌아올 것이라고 믿음
- 서로 영향을 끼치지 않는 일련의 확률적 사건들에서 상관 관계를 찾는 오류를 발생
평균으로의 회귀
- 부모가 둘 다 평균보다 키크면 자식이 부모보다 작을 가능성이 높다
- 역으로 부모가 평균보다 작으면 자식은 평균보다 클 가능성이 높다
- 도박사의 오류와 미묘하게 다름
- 극단적인 사건 다음에 오는 사건은 덜 극단적인 경향이 있다
- 공정 룰렛 휠을 10번 돌려 빨간색이 나온다면(극단적 사례) 10번에서는 빨간색이 10보다 적게 나온다는 개념. 덜 극단적인 사건이다
- 극단적인 결과보다는 20번 돌린 것의 평균 결과가 50% 빨간색이라는 평균값에 더 가까울 것
- 더 많은 표본을 취할수록 평균에 더 가까워짐
분산과 표준편차
- 기저 확률의 변이성에 따라 필요한 표본의 수가 달라짐
- 데이터의 변이성을 알기 위해 알아야 되는 개념 : 분산
- 평균으로부터 모두의 거리를 구하여 단순히 다 더함
- 마지막으로 집합의 크기(전체 항목) 개수로 나눔
- 단지 항목의 개수가 많다는 이유로 분산이 높아지는 것을 막기 위해서, 항목의 개수로 정규화함
- 제곱을 하는 이유 :
- 차이가 양수든 음수든 상관이 없다는 것, 평균으로부터 어느 쪽에 있는지보다 근처에 있지 않다는 것이 중요함
- 거리를 제곱해 이상치를 특별히 강조함(장점이자 단점)
- 표준편차
- 분산의 제곱근
- 표준편차 그 자체로는 의미없는 숫자
- 항상 평균을 고려해 생각해야 함
- 신뢰 구간
- 우리는 종종 평균만 가지고 예측하려고 함
- 값을 모르는 매개변수를 설명할 때 기댓값과 같은 특정 값을 주는 것보단 신뢰 구간으로 표현하는 것이 좋음
- 신뢰구간은 모르는 값이 포함될 가능성이 높은 구간과 그 구간에 존재할 확률을 알려줌
- 결과가 -1%과 +1일 사이일 것이라 예측하고 전체 게임 중 95%는 이 예측이 맞을 것이라고 기대하는 것
- 신뢰 구간은 어떻게 계산할까?
- 경험적인 규칙을 사용
- 데이터를 얻어 평균을 찾고 표준편차를 계산하면 데이터의 58%는 평균값 앞뒤로 1 표준편차 범위 이내에 있음
- 경험적인 규칙을 적용하기 위한 가정
- 평균 추정 오차가 0
- 높게 예측할 가능성과 낮게 예측할 가능성이 같아야 함
- 이런 류의 실험과 시뮬레이션에선 타당한 가정
- 오차에 편향이 없다는 가정
- 오차의 분포가 정규분포
- 가우스 분포, 정규분포
- 이 두 가정하에 경험적 규칙은 항상 유효
- 평균 추정 오차가 0
확률 분포
- 확률 분포 : 확률 변수가 서로 다른 값을 가지는 상대적 빈도를 나타내는 개념
- 확률 변수
- 이산 확률 변수
- 유한 집합의 값들을 가짐
- 동전을 던지면 앞면과 뒷면이란 2개의 값만 나옴
- 연속 확률 변수
- 확률밀도함수(PDF)를 사용
- 두 값 사이 어딘가에 존재할 확률을 알려줌
- 이산 확률 변수
실습 코드
728x90
'Data Science, ML > MIT- Introduction to Data Science' 카테고리의 다른 글
[MIT] Data Science - 8. Sampling and Standard Error (0) | 2021.05.27 |
---|---|
[MIT] Data Science - 7. Confidence Intervals (0) | 2021.05.27 |
[MIT] Data Science - 5. Random Walks (0) | 2021.05.26 |
[MIT] Data Science - 4. Stochastic Thinking (0) | 2021.05.26 |
[MIT] Data Science - 3. Graph-theoretic Models (0) | 2021.05.26 |