[MIT] Data Science - 14. Classification and Statistical Sins
Data Science, ML/MIT- Introduction to Data Science

[MIT] Data Science - 14. Classification and Statistical Sins

Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)

 

Introduction to Computational Thinking and Data Science

6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol

ocw.mit.edu

MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료

MIT6_0002F16_lec14.pdf
0.98MB

핵심 키워드

  • ROC(Receiver Operating Characteristic) 
  • AUROC(the Area Under a ROC Curve)
  • 통계적 죄악

 

학습 내용

ROC(Receiver Operating Characteristic)

  • FPRTPR을 각각 x,y축으로 놓은 그래프
    • TPR : Ture Positive Rate
    • FPR :  False Positive Rate 
    • TPR과 FPR의 여러가지 상황을 고려해 성능을 파악해야할 때, 한눈에 볼 수 있게 시각화한 그래프
  • AUC
    • AUROC(the Area Under a ROC Curve)
    • ROC 커브의 밑면적을 구한 값
    • 1에 가까울수록 성능이 좋음

통계적 죄악

  • 데이터에 대한 통계는 데이터 그 자체와 같지 않음
    • 따라서 적절한 시각화를 통해 데이터를 파악해야 함
  • 축의 라벨이 없는 경우 파악해야 함
    • 차이를 실제보다 크게 할 수 해서 속이는 경우 존재
  • 데이터가 분석할 가치가 있는지 파악하기
    • Garbage In, Garbage Out
    • 불량 데이터의 분석은 위험한 결론에 도출할 수 있음
    • 표본 추출할 때
  • 샘플이 무작위이고 독립적이지 않을 경우
    • 평균과 표준편차를 구할 수는 있지만, 거기서 결론을 도출해서는 안됨
    • 데이터가 어떻게 수집되었는지 이해하고 분석에 사용된 가정이 만족되었는지 확인

 

 

실습 코드

 

MIT_Reference_code.zip

 

drive.google.com

 

728x90