[MIT] Data Science - 11. Introduction to Machine Learning

Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)

Introduction to Computational Thinking and Data Science

6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol

ocw.mit.edu

MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료

MIT6_0002F16_lec11.pdf

2.55MB

핵심 키워드

머신러닝(Machine Learning)
지도 학습(Supervised Learning)
비지도 학습(Unsupervised Learning)
특성 설계(Feature Engineering)
평가 방법

학습 내용

머신러닝

자연어 처리, 계산 생물학, 컴퓨터 비전, 로보틱스 모두 머신러닝에 의존
- 얼굴 인식 기술 : 얼굴을 감지하고 또 식별할 때 사용
- IBM Watson의 암 진단법
경험을 통해서 학습하는 프로그램 ⇒ 새로운 사실을 예측하고 싶음
컴퓨터가 명시적으로 프로그래밍 되지않고 학습하게 만드는 연구 분야
프로그램을 통해 인풋 ⇒ 출력
머신러닝은 프로그램에게 원하는 것의 예시를 제공
- 컴퓨터가 할 일은 주어진 출력와 데이터에 대한 정의로 프로그램을 생성
일반화
- 데이터의 내적 패턴으로부터 정보를 유추하는 프로그램을 작성하는 것에 관심을 가짐
머신러닝 모델의 종류
- 선형 회귀
  - 머신러닝에서 대표적인 모델
  - 데이터에 적합한 모델을 유추할 때 도와줌
  - 데이터의 최적선을 찾음
- 군집분석 : 레이블화된 데이터가 없을 때 유용
머신러닝 알고리즘의 분류
- 지도 학습
  - 훈련 데이터로 제공하는 모든 새로운 예시마다 레이블이 존재
  - 레이블을 예측할 규칙을 찾아내 보지 못했던 입력의 레이블을 찾아냄
- 비지도 학습
  - 각각의 레이블을 알 수 없음
  - 자연스러운 방법을 찾아서 모델 생성

Feature Engineering(특성 설계)

어떤 특성들을(Feature) 측정해 조합을 만들고 어떻게 가중치를 둘 것인지 결정하는 것
특성을 어떻게 선택할까?
- 신호 대 잡음비는 최대화
- 가장 많은 정보를 가진 특성을 최대화하고 그렇지 않은 것을 제거

평가 방법

오차 행렬(confusion matrix)
- 정확도(Accuracy)
  - 전체 샘플 중 맞게 예측한 샘플 수의 비율
- PPV (positive predictive value = true positive /(true positive + false positive)
  - 긍정 표시한 것들 중 얼마나 진실인지?
- 민감도(sensitivity) = true positive / (true positive + false negative)
  - 단순히 올바르게 맞춘 비율
  - TPR : True Positive Rate
- 특정성(specificity) = true negative / (true negative + false positive)
  - 올바르게 제외한 비율
- ROC
  - 다음 시간에 학습

실습 코드

MIT_Reference_code.zip

drive.google.com

728x90

저작자표시 비영리 변경금지 (새창열림)

'Data Science, ML > MIT- Introduction to Data Science' 카테고리의 다른 글

[MIT] Data Science - 13. Classification (0)	2021.06.01
[MIT] Data Science - 12. Clustering (0)	2021.06.01
[MIT] Data Science - 10. Understanding Experimental Data (0)	2021.05.28
[MIT] Data Science - 9. Understanding Experimental Data (cont.) (0)	2021.05.27
[MIT] Data Science - 8. Sampling and Standard Error (0)	2021.05.27

'Data Science, ML > MIT- Introduction to Data Science' 카테고리의 다른 글

티스토리툴바