[MIT] Data Science - 9. Understanding Experimental Data (cont.)
Data Science, ML/MIT- Introduction to Data Science

[MIT] Data Science - 9. Understanding Experimental Data (cont.)

Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)

 

Introduction to Computational Thinking and Data Science

6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol

ocw.mit.edu

MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료

MIT6_0002F16_lec9.pdf
0.98MB

핵심 키워드

  • 실험 데이터 수집
  • 데이터에 곡선 피팅
  • 결정 계수(R square)

학습 내용

실험으로 데이터를 얻는 경우

  • 실험 과학과 통계가 만남
  • 데이터를 얻으면 무엇을 할 수 있을까
    • 데이터 및 모델이 어떤 연관성이 있는지
    • 미래 기대치에 대해 무엇을 말해주는지
    • 데이터를 통해 예상할 수 있는 다른 결과는 무엇인지
    • 사회적으론 응답에 대해 어떻게 생각하는지, 다음 선거에서 누구를 뽑을지 등
    • 세번째로 데이터 관련 문제에 답을 위한 계산을 설계
  • 추가적인 실험을 위해 계산을 어디에 사용할지?

 

데이터에 곡선 피팅

  • 데이터에 곡선을 맞추는 것은 독립 변수를 종속 변수의 추정값에 관련시키는 방법을 찾는 것
  • 어떤 곡선이 데이터에 얼마나 잘 맞는지를 결정하려면, 적합도를 측정하는 방법, 즉 목적 함수가 필요함
    • 목적 함수가 얼마나 정확한지 측정해줄거임
  • 목적 함수를 정의하고 나면, 그것을 최소화하는 곡선(선)을 찾아야 함
    • 최소화하는 선 : 추세선
  • 측정점들까지의 거리의 합에 관한 함수가 최소화되는 직선을 찾아야 함
    • 측정값들의 거리 합이 최소화가 되는 곳을 찾기

거리 측정

  • 점을 찍어보면 일직선은 아님
  • 직선을 찾기 위해
    • 측정값과 잡음을 고려
    • 독립 변수인 x축을 종속 변수 y축에!!!
    • 직선이 있더라도 얼마나 적절한지 측정해야 함
  • 목적 함수가 필요
    • 얼마나 정확한지 측정해줄거임
    • 목적 함수를 정의하고 나면 최소화하는 선을 찾음
    • 최적의 선, 목적 함수를 최소화하는 선을 찾음!
      • 이게 추세선
  • 직선에서 측정값들의 거리의 합이 최소화가 되는 곳을 찾기
    • 종속 값을 예측하려고 함
    • 차이, 불확실성은 수직 변위임

추세선의 적합성을 파악하는 방법

  • 그냥 서로 비교
  • 절대적인 값을 구하기
  • 우린 하려고 하는 것
    • 추세선의 적절성을 측정하는 방법을 찾으려 함
      • 결정 계수(R^2) 사용

결정 계수 

  • 분자는 추세선에서 오차를 구하고 분모는 데이터 자체의 편차를 나타냄
    • 분모는 데이터가 얼마나 변화하는지
    • 분자는 오차 값들이 얼마나 퍼져있는지
    • 표본의 수로 나누면 meanError
  • 의미
    • 데이터에서 얼마만큼의 범위가 저 모델에 의해 설명되는지?
    • 선형 회귀로 추세선을 만들면 R Square는 0~1
    • 1은 모든 데이터를 설명할 수 있다는 뜻
      • 데이터의 변동성을 모델로 완벽히 예측할 수 있음
    • 0이면 아무 의미가 없음
      • 실제값과 추정값 사이에 어떤 연관성도 없음
    • 높은 값을 가져고 해서 반드시 사용해야 되는건 아님

 

실습 코드

 

MIT_Reference_code.zip

 

drive.google.com

 

728x90