[MIT] Data Science - 15. Statistical Sins and Wrap Up
Data Science, ML/MIT- Introduction to Data Science

[MIT] Data Science - 15. Statistical Sins and Wrap Up

Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)

 

Introduction to Computational Thinking and Data Science

6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol

ocw.mit.edu

MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료

MIT6_0002F16_lec15 (1).pdf
0.74MB

핵심 키워드

  • 통계적 죄악
  • 강의 정리

 

학습 내용

통계적 죄악

  • y축이 0부터 시작하지 않는 차트를 조심하기
    • y 축을 축소해서 의미없는 값들을 제거
    • 실제와 다르게 보이도록 범위를 줄이면 안되고 속일 의도로 너무 늘려서도 안됨
  • 변동과 경향을 혼동하지 말기
  • 분모를 모를 때에는 확률적인 변화에 조심하기

 

강의의 주제

  • 최적화 문제
  • 확률론적 사고
  • 세상의 측면을 모델링하는 것
  • 더 나은 프로그래머 되기

강의 정리

  • 탐욕 알고리즘 : 유용하지만 자주 최적해를 찾지 못함
  • k평균 군집화
    • 군집을 찾기 위한 효율적 방법
    • 최적의 군집 세트를 반드시 찾진 못함
  • 동적 계획법
    • 빠른 해답을 가져다주기도 함
    • 근사 해가 아닌 정확한 해를 제공
  • memorization은 아주 유용한 기술
    • 공간을 시간으로 줄임
  • 최적화 문제
    • 배낭 문제
    • 그래프 문제
    • 곡선 맞춤
    • 군집화
    • 로지스틱 회귀
  • 세상이 확률적이라고 생각하고 세상을 모델링하려고 하면 확률적 프로그램을 작성할 방법이 필요
  • 무작위 계산
    • 전혀 무작위성을 가지지 안은 문제에도 유용하게 쓰이는 계산 기법
    • 파이값을 찾기 위해 사용, 적분에도 쓰일 수 있음
  • 통계적 모델
    • 시뮬레이션 모델
    • 몬테카를로 시뮬레이션
    • 표본 추출에 기반한 모델
    • 시뮬레이션에 대해 이야기할 때 결과가 얼마나 신뢰성이 있는지 체크하기
    • 신뢰 구간과 신뢰수준
      • 두 변수를 통해 답이 얼마나 믿을만한지 설명
    • 중심 극한 정리와 다른 분포
  • 머신러닝 통계 모델
    • 비지도 학습
      • 군집화
        • 계층적 군집화
        • K 평균 군집화
    • 지도 학습
      • 선형 회귀
      • 분류
      • K-최근접 이웃
      • 로지스틱 회귀

 

실습 코드

 

MIT_Reference_code.zip

 

drive.google.com

 

728x90