Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)
Introduction to Computational Thinking and Data Science
6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol
ocw.mit.edu
MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료
핵심 키워드
- ROC(Receiver Operating Characteristic)
- AUROC(the Area Under a ROC Curve)
- 통계적 죄악
학습 내용
ROC(Receiver Operating Characteristic)
- FPR와 TPR을 각각 x,y축으로 놓은 그래프
- TPR : Ture Positive Rate
- FPR : False Positive Rate
- TPR과 FPR의 여러가지 상황을 고려해 성능을 파악해야할 때, 한눈에 볼 수 있게 시각화한 그래프
- AUC
- AUROC(the Area Under a ROC Curve)
- ROC 커브의 밑면적을 구한 값
- 1에 가까울수록 성능이 좋음
통계적 죄악
- 데이터에 대한 통계는 데이터 그 자체와 같지 않음
- 따라서 적절한 시각화를 통해 데이터를 파악해야 함
- 축의 라벨이 없는 경우 파악해야 함
- 차이를 실제보다 크게 할 수 해서 속이는 경우 존재
- 데이터가 분석할 가치가 있는지 파악하기
- Garbage In, Garbage Out
- 불량 데이터의 분석은 위험한 결론에 도출할 수 있음
- 표본 추출할 때
- 샘플이 무작위이고 독립적이지 않을 경우
- 평균과 표준편차를 구할 수는 있지만, 거기서 결론을 도출해서는 안됨
- 데이터가 어떻게 수집되었는지 이해하고 분석에 사용된 가정이 만족되었는지 확인
실습 코드
MIT_Reference_code.zip
drive.google.com
728x90
'Data Science, ML > MIT- Introduction to Data Science' 카테고리의 다른 글
[MIT] Data Science - 15. Statistical Sins and Wrap Up (0) | 2021.06.02 |
---|---|
[MIT] Data Science - 13. Classification (0) | 2021.06.01 |
[MIT] Data Science - 12. Clustering (0) | 2021.06.01 |
[MIT] Data Science - 11. Introduction to Machine Learning (0) | 2021.05.31 |
[MIT] Data Science - 10. Understanding Experimental Data (0) | 2021.05.28 |