[MIT] Data Science - 13. Classification
Data Science, ML/MIT- Introduction to Data Science

[MIT] Data Science - 13. Classification

Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)

 

Introduction to Computational Thinking and Data Science

6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol

ocw.mit.edu

MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료

MIT6_0002F16_lec13.pdf
3.26MB

핵심 키워드

  • 분류법(Classification)
  • k-최근접 이웃(kNN)
  • 로지스틱 회귀(Logistic regression)

 

학습 내용

지도 학습

  • 특성 벡터에 대한 특정한 수를 예측하는 회귀
    • 주어진 특성에 대한 특정 지점을 예측하는 방법
    • 다차원으로 일반화하는 것
  • 분류는 회귀보다 더 자주 사용됨
    • 이산값을 계산하는 것이 목표

k-최근접 이웃방법(kNN)

  • 간단한 접근! 점이 나오면 어디에 제일 근접한지를 확인
    • 몇가지 최근접 이웃을 찾고(보통 홀수를 찾음) 가장 많은 것을 고름
    • k의 크기를 고민! 분류의 크기에 따라 영향을 받을 수 있음
    • 훈련 세트와 테스트 세트로 데이터를 나누고 훈련 세트만 선택해서,
    • 훈련 셋과 테스트 셋으로 다시 나눔
      • ⇒ 다양한 k로 시도
      • 교차 검증
  • 장점
    • 빠르게 학습, 별도의 훈련이 필요없음
    • 모든 부분을 기억
    • 방법과 결과를 설명하기 쉬움
  • 단점
    • 메모리가 많이 필요할 수 있음. 백만개 샘플이 있으면 모두 저장해야 함
    • 예측에 필요한 시간이 길어질 수 있음
    • 무차별 대입법을 이용하면 k 근접 이웃의 근사값을 구할 수 있지만 그렇게 빠르진 않음
    • 어떤 과정으로 데이터가 생성되는지 배우지 않고, 데이터의 모델이 어떠한지 알 수 없음

로지스틱 회귀(Logistic regression)

  • 선형 회귀와 비슷해보일 수 있지만 차이점 있음
    • 어떤 사건에 대한 확률을 구하려고 함
      • 종속 변수는 유한한 개수의 값
      • 사망할 확률이 0.5면? 절반만 사망한 상태를 의미하진 않음
  • 각 특성에 대한 가중치를 계산
    • 절대적 값은 상관관계의 강도
    • +, - 에 따라 변수가 결과와 어떤 식으로 관계되어 있는지 알 수 있음
  • 해당 레이블이 가질 확률값을 계산
  • 각 변수에 대한 정보를 제공

 

 

 

실습 코드

 

MIT_Reference_code.zip

 

drive.google.com

 

728x90