Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)
MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료
핵심 키워드
- 분류법(Classification)
- k-최근접 이웃(kNN)
- 로지스틱 회귀(Logistic regression)
학습 내용
지도 학습
- 특성 벡터에 대한 특정한 수를 예측하는 회귀
- 주어진 특성에 대한 특정 지점을 예측하는 방법
- 다차원으로 일반화하는 것
- 분류는 회귀보다 더 자주 사용됨
- 이산값을 계산하는 것이 목표
k-최근접 이웃방법(kNN)
- 간단한 접근! 점이 나오면 어디에 제일 근접한지를 확인
- 몇가지 최근접 이웃을 찾고(보통 홀수를 찾음) 가장 많은 것을 고름
- k의 크기를 고민! 분류의 크기에 따라 영향을 받을 수 있음
- 훈련 세트와 테스트 세트로 데이터를 나누고 훈련 세트만 선택해서,
- 훈련 셋과 테스트 셋으로 다시 나눔
- ⇒ 다양한 k로 시도
- 교차 검증
- 장점
- 빠르게 학습, 별도의 훈련이 필요없음
- 모든 부분을 기억
- 방법과 결과를 설명하기 쉬움
- 단점
- 메모리가 많이 필요할 수 있음. 백만개 샘플이 있으면 모두 저장해야 함
- 예측에 필요한 시간이 길어질 수 있음
- 무차별 대입법을 이용하면 k 근접 이웃의 근사값을 구할 수 있지만 그렇게 빠르진 않음
- 어떤 과정으로 데이터가 생성되는지 배우지 않고, 데이터의 모델이 어떠한지 알 수 없음
로지스틱 회귀(Logistic regression)
- 선형 회귀와 비슷해보일 수 있지만 차이점 있음
- 어떤 사건에 대한 확률을 구하려고 함
- 종속 변수는 유한한 개수의 값
- 사망할 확률이 0.5면? 절반만 사망한 상태를 의미하진 않음
- 어떤 사건에 대한 확률을 구하려고 함
- 각 특성에 대한 가중치를 계산
- 절대적 값은 상관관계의 강도
- +, - 에 따라 변수가 결과와 어떤 식으로 관계되어 있는지 알 수 있음
- 해당 레이블이 가질 확률값을 계산
- 각 변수에 대한 정보를 제공
실습 코드
728x90
'Data Science, ML > MIT- Introduction to Data Science' 카테고리의 다른 글
[MIT] Data Science - 15. Statistical Sins and Wrap Up (0) | 2021.06.02 |
---|---|
[MIT] Data Science - 14. Classification and Statistical Sins (0) | 2021.06.01 |
[MIT] Data Science - 12. Clustering (0) | 2021.06.01 |
[MIT] Data Science - 11. Introduction to Machine Learning (0) | 2021.05.31 |
[MIT] Data Science - 10. Understanding Experimental Data (0) | 2021.05.28 |