Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)
MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료
핵심 키워드
- 높은 차수의 모델을 사용하지 않는 이유
- 교차 검증
학습 내용
저번 시간 정리
- 실험 데이터를 모델링하는 것을 배움
- 새로운 환경에서 행동을 예측하고 싶음
- 데이터가 완벽하면 매우 좋음 그러나 현실은 그렇지 않고, 데이터에 잡음이 많고 실험의 불확실성이 존재
- 어떤게 가장 적절한 모델인가?
- 측정값과 추정값 차의 제곱의 합으로 데이터의 추세선이 적합한지 측정
- 1차식, 절대값, 제곱 등등
- 결정 계수(R Sqaure)
- 규모에 독립적 ⇒ 모든 데이터의 크기를 늘릴 때 같은 값을 반환
- 모델의 적합성을 알려주는 지표
- 1에 가까울수록 좋음
- 모델을 그리는 이유
- 현상 설명
- 예측
높은 차수의 모델을 사용하지 않는 이유
- 새로운 행동을 얼마나 잘 예상하는지 궁금
- 여기서 보는 것은 훈련 오차인데, 모델이 학습한 데이터를 잘 표현하는 것
- 검증 또는 교차 검증(Cross Validate)을 통해 학습한 데이터가 아닌
새로운 데이터를 얼마나 잘 파악하는지 보고 싶음
- 높은 차수 모델은 가능한 차수에 대한 자유도가 너무 높음
- 정해지지 않은 모수가 너무 많음
- 노이즈도 포함
- 왜 지수에 자유도를 높일 때 결과가 좋을까?
- 사실 더 높은 지수를 추가하면 영향을 끼치지 않음
- 완벽한 데이터를 가지면 계수가 0일듯
- 추세선에 영향을 끼치지 않음
- 그러나 노이즈가 많으면 모델은 노이즈도 추세에 포함
- 더 나은 추세선은 아님
- 사실 더 높은 지수를 추가하면 영향을 끼치지 않음
- 모델이 간단하고 데이터를 잘 설명할 수 있는 중간의 모델을 원함
- 알맞는 모델을 어떻게 구하는 방법
- 낮은 차수의 그래프부터 시작
- 차수를 높이세요
- 반복하세요
- 정확도가 떨어지기 시작할 때가 적합한 모델을 찾았다는 신호
교차 검증
- 하나의 데이터셋으로 모델을 생성한 후, 다른 데이터셋으로 모델 검증
- 검증 오차가 훈련 오차보다 클 것
- 학습 오차보다 일반성을 더 잘 나타냄
- 상황별 교차 검증
- 데이터 세트가 작다면 Leave one out cross validation(LOOCV)을 사용
- 데이터 세트 크기만큼 반복하고 데이터 셋 혹은 복사본 표본 중 하나를 버림
- 버리고 훈련 데이터 셋으로 모델을 만든 후 평균
- 데이터 세트가 크다면 k-fold 교차 검증
- 데이터 세트를 k 크기의 작은 세트로 분할하고 나머지를 이용해 모델 생성
- 반복 무작위 추출법
- 데이터 세트가 작다면 Leave one out cross validation(LOOCV)을 사용
- 왜 여러 개의 데이터 세트로 검증해야 할까?
- 편차가 클 수 있음
- 다른 결론에 도달할 수 있음
- 각 실행에 대한 통계 값을 얻을 수 있음
정리
- 선형 회귀를 이용하여 데이터에 곡선을 피팅할 수 있음
- 그 곡선은 우리가 본 적 없는 독립 변수 값(표본에 없는 데이터)에 대한 값을 예측하는 데 사용될 수 있는 모델
- R2은 모델을 평가하는 데 사용됨
- 모델의 복잡도를 선택하는 기준
실습 코드
728x90
'Data Science, ML > MIT- Introduction to Data Science' 카테고리의 다른 글
[MIT] Data Science - 12. Clustering (0) | 2021.06.01 |
---|---|
[MIT] Data Science - 11. Introduction to Machine Learning (0) | 2021.05.31 |
[MIT] Data Science - 9. Understanding Experimental Data (cont.) (0) | 2021.05.27 |
[MIT] Data Science - 8. Sampling and Standard Error (0) | 2021.05.27 |
[MIT] Data Science - 7. Confidence Intervals (0) | 2021.05.27 |