[MIT] Data Science - 10. Understanding Experimental Data
Data Science, ML/MIT- Introduction to Data Science

[MIT] Data Science - 10. Understanding Experimental Data

Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)

 

Introduction to Computational Thinking and Data Science

6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol

ocw.mit.edu

MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료

MIT6_0002F16_lec10.pdf
2.03MB

핵심 키워드

  • 높은 차수의 모델을 사용하지 않는 이유
  • 교차 검증

 

학습 내용

저번 시간 정리

  • 실험 데이터를 모델링하는 것을 배움
    • 새로운 환경에서 행동을 예측하고 싶음
    • 데이터가 완벽하면 매우 좋음 그러나 현실은 그렇지 않고, 데이터에 잡음이 많고 실험의 불확실성이 존재
  • 어떤게 가장 적절한 모델인가?
    • 측정값과 추정값 차의 제곱의 합으로 데이터의 추세선이 적합한지 측정
    • 1차식, 절대값, 제곱 등등
  • 결정 계수(R Sqaure)
    • 규모에 독립적 ⇒ 모든 데이터의 크기를 늘릴 때 같은 값을 반환
    • 모델의 적합성을 알려주는 지표
    • 1에 가까울수록 좋음
  • 모델을 그리는 이유
    • 현상 설명
    • 예측

높은 차수의 모델을 사용하지 않는 이유

  • 새로운 행동을 얼마나 잘 예상하는지 궁금
    • 여기서 보는 것은 훈련 오차인데, 모델이 학습한 데이터를 잘 표현하는 것
    • 검증 또는 교차 검증(Cross Validate)을 통해 학습한 데이터가 아닌
      새로운 데이터를 얼마나 잘 파악하는지 보고 싶음
  • 높은 차수 모델은 가능한 차수에 대한 자유도가 너무 높음
    • 정해지지 않은 모수가 너무 많음
    • 노이즈도 포함
  • 왜 지수에 자유도를 높일 때 결과가 좋을까?
    • 사실 더 높은 지수를 추가하면 영향을 끼치지 않음
      • 완벽한 데이터를 가지면 계수가 0일듯
      • 추세선에 영향을 끼치지 않음
    • 그러나 노이즈가 많으면 모델은 노이즈도 추세에 포함
      • 더 나은 추세선은 아님
  • 모델이 간단하고 데이터를 잘 설명할 수 있는 중간의 모델을 원함
  • 알맞는 모델을 어떻게 구하는 방법
    • 낮은 차수의 그래프부터 시작
    • 차수를 높이세요
    • 반복하세요
    • 정확도가 떨어지기 시작할 때가 적합한 모델을 찾았다는 신호

교차 검증

  • 하나의 데이터셋으로 모델을 생성한 후, 다른 데이터셋으로 모델 검증
    • 검증 오차가 훈련 오차보다 클 것
    • 학습 오차보다 일반성을 더 잘 나타냄
  • 상황별 교차 검증
    • 데이터 세트가 작다면 Leave one out cross validation(LOOCV)을 사용
      • 데이터 세트 크기만큼 반복하고 데이터 셋 혹은 복사본 표본 중 하나를 버림
      • 버리고 훈련 데이터 셋으로 모델을 만든 후 평균
    • 데이터 세트가 크다면 k-fold 교차 검증
      • 데이터 세트를 k 크기의 작은 세트로 분할하고 나머지를 이용해 모델 생성
    • 반복 무작위 추출법
  • 왜 여러 개의 데이터 세트로 검증해야 할까?
    • 편차가 클 수 있음
    • 다른 결론에 도달할 수 있음
    • 각 실행에 대한 통계 값을 얻을 수 있음

정리

  • 선형 회귀를 이용하여 데이터에 곡선을 피팅할 수 있음
  • 그 곡선은 우리가 본 적 없는 독립 변수 값(표본에 없는 데이터)에 대한 값을 예측하는 데 사용될 수 있는 모델
  • R2은 모델을 평가하는 데 사용됨
  • 모델의 복잡도를 선택하는 기준

 

실습 코드

 

MIT_Reference_code.zip

 

drive.google.com

 

728x90