Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)
MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료
핵심 키워드
- 실험 데이터 수집
- 데이터에 곡선 피팅
- 결정 계수(R square)
학습 내용
실험으로 데이터를 얻는 경우
- 실험 과학과 통계가 만남
- 데이터를 얻으면 무엇을 할 수 있을까
- 데이터 및 모델이 어떤 연관성이 있는지
- 미래 기대치에 대해 무엇을 말해주는지
- 데이터를 통해 예상할 수 있는 다른 결과는 무엇인지
- 사회적으론 응답에 대해 어떻게 생각하는지, 다음 선거에서 누구를 뽑을지 등
- 세번째로 데이터 관련 문제에 답을 위한 계산을 설계
- 추가적인 실험을 위해 계산을 어디에 사용할지?
데이터에 곡선 피팅
- 데이터에 곡선을 맞추는 것은 독립 변수를 종속 변수의 추정값에 관련시키는 방법을 찾는 것
- 어떤 곡선이 데이터에 얼마나 잘 맞는지를 결정하려면, 적합도를 측정하는 방법, 즉 목적 함수가 필요함
- 목적 함수가 얼마나 정확한지 측정해줄거임
- 목적 함수를 정의하고 나면, 그것을 최소화하는 곡선(선)을 찾아야 함
- 최소화하는 선 : 추세선
- 측정점들까지의 거리의 합에 관한 함수가 최소화되는 직선을 찾아야 함
- 측정값들의 거리 합이 최소화가 되는 곳을 찾기
거리 측정
- 점을 찍어보면 일직선은 아님
- 직선을 찾기 위해
- 측정값과 잡음을 고려
- 독립 변수인 x축을 종속 변수 y축에!!!
- 직선이 있더라도 얼마나 적절한지 측정해야 함
- 목적 함수가 필요
- 얼마나 정확한지 측정해줄거임
- 목적 함수를 정의하고 나면 최소화하는 선을 찾음
- 최적의 선, 목적 함수를 최소화하는 선을 찾음!
- 이게 추세선
- 직선에서 측정값들의 거리의 합이 최소화가 되는 곳을 찾기
- 종속 값을 예측하려고 함
- 차이, 불확실성은 수직 변위임
추세선의 적합성을 파악하는 방법
- 그냥 서로 비교
- 절대적인 값을 구하기
- 우린 하려고 하는 것
-
- 추세선의 적절성을 측정하는 방법을 찾으려 함
- 결정 계수(R^2) 사용
- 추세선의 적절성을 측정하는 방법을 찾으려 함
결정 계수
- 분자는 추세선에서 오차를 구하고 분모는 데이터 자체의 편차를 나타냄
- 분모는 데이터가 얼마나 변화하는지
- 분자는 오차 값들이 얼마나 퍼져있는지
- 표본의 수로 나누면 meanError
- 의미
- 데이터에서 얼마만큼의 범위가 저 모델에 의해 설명되는지?
- 선형 회귀로 추세선을 만들면 R Square는 0~1
- 1은 모든 데이터를 설명할 수 있다는 뜻
- 데이터의 변동성을 모델로 완벽히 예측할 수 있음
- 0이면 아무 의미가 없음
- 실제값과 추정값 사이에 어떤 연관성도 없음
- 높은 값을 가져고 해서 반드시 사용해야 되는건 아님
실습 코드
728x90
'Data Science, ML > MIT- Introduction to Data Science' 카테고리의 다른 글
[MIT] Data Science - 11. Introduction to Machine Learning (0) | 2021.05.31 |
---|---|
[MIT] Data Science - 10. Understanding Experimental Data (0) | 2021.05.28 |
[MIT] Data Science - 8. Sampling and Standard Error (0) | 2021.05.27 |
[MIT] Data Science - 7. Confidence Intervals (0) | 2021.05.27 |
[MIT] Data Science - 6. Monte Carlo Simulation (0) | 2021.05.26 |