Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)
MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료
핵심 키워드
- 머신러닝(Machine Learning)
- 지도 학습(Supervised Learning)
- 비지도 학습(Unsupervised Learning)
- 특성 설계(Feature Engineering)
- 평가 방법
학습 내용
머신러닝
- 자연어 처리, 계산 생물학, 컴퓨터 비전, 로보틱스 모두 머신러닝에 의존
- 얼굴 인식 기술 : 얼굴을 감지하고 또 식별할 때 사용
- IBM Watson의 암 진단법
- 경험을 통해서 학습하는 프로그램 ⇒ 새로운 사실을 예측하고 싶음
- 컴퓨터가 명시적으로 프로그래밍 되지않고 학습하게 만드는 연구 분야
- 프로그램을 통해 인풋 ⇒ 출력
- 머신러닝은 프로그램에게 원하는 것의 예시를 제공
- 컴퓨터가 할 일은 주어진 출력와 데이터에 대한 정의로 프로그램을 생성
- 일반화
- 데이터의 내적 패턴으로부터 정보를 유추하는 프로그램을 작성하는 것에 관심을 가짐
- 머신러닝 모델의 종류
- 선형 회귀
- 머신러닝에서 대표적인 모델
- 데이터에 적합한 모델을 유추할 때 도와줌
- 데이터의 최적선을 찾음
- 군집분석 : 레이블화된 데이터가 없을 때 유용
- 선형 회귀
- 머신러닝 알고리즘의 분류
- 지도 학습
- 훈련 데이터로 제공하는 모든 새로운 예시마다 레이블이 존재
- 레이블을 예측할 규칙을 찾아내 보지 못했던 입력의 레이블을 찾아냄
- 비지도 학습
- 각각의 레이블을 알 수 없음
- 자연스러운 방법을 찾아서 모델 생성
- 지도 학습
Feature Engineering(특성 설계)
- 어떤 특성들을(Feature) 측정해 조합을 만들고 어떻게 가중치를 둘 것인지 결정하는 것
- 특성을 어떻게 선택할까?
- 신호 대 잡음비는 최대화
- 가장 많은 정보를 가진 특성을 최대화하고 그렇지 않은 것을 제거
평가 방법
- 오차 행렬(confusion matrix)
- 정확도(Accuracy)
- 전체 샘플 중 맞게 예측한 샘플 수의 비율
- PPV (positive predictive value = true positive /(true positive + false positive)
- 긍정 표시한 것들 중 얼마나 진실인지?
- 민감도(sensitivity) = true positive / (true positive + false negative)
- 단순히 올바르게 맞춘 비율
- TPR : True Positive Rate
- 특정성(specificity) = true negative / (true negative + false positive)
- 올바르게 제외한 비율
- ROC
- 다음 시간에 학습
- 정확도(Accuracy)
실습 코드
728x90
'Data Science, ML > MIT- Introduction to Data Science' 카테고리의 다른 글
[MIT] Data Science - 13. Classification (0) | 2021.06.01 |
---|---|
[MIT] Data Science - 12. Clustering (0) | 2021.06.01 |
[MIT] Data Science - 10. Understanding Experimental Data (0) | 2021.05.28 |
[MIT] Data Science - 9. Understanding Experimental Data (cont.) (0) | 2021.05.27 |
[MIT] Data Science - 8. Sampling and Standard Error (0) | 2021.05.27 |