Introduction to Computational Thinking and Data Science
(6.0002, Fall 2016)
MIT 공대의 "Introduction to Computational Thinking and Data Science"(6.0002, Fall 2016) 강의 정리 자료
핵심 키워드
- ROC(Receiver Operating Characteristic)
- AUROC(the Area Under a ROC Curve)
- 통계적 죄악
학습 내용
ROC(Receiver Operating Characteristic)
- FPR와 TPR을 각각 x,y축으로 놓은 그래프
- TPR : Ture Positive Rate
- FPR : False Positive Rate
- TPR과 FPR의 여러가지 상황을 고려해 성능을 파악해야할 때, 한눈에 볼 수 있게 시각화한 그래프
- AUC
- AUROC(the Area Under a ROC Curve)
- ROC 커브의 밑면적을 구한 값
- 1에 가까울수록 성능이 좋음
통계적 죄악
- 데이터에 대한 통계는 데이터 그 자체와 같지 않음
- 따라서 적절한 시각화를 통해 데이터를 파악해야 함
- 축의 라벨이 없는 경우 파악해야 함
- 차이를 실제보다 크게 할 수 해서 속이는 경우 존재
- 데이터가 분석할 가치가 있는지 파악하기
- Garbage In, Garbage Out
- 불량 데이터의 분석은 위험한 결론에 도출할 수 있음
- 표본 추출할 때
- 샘플이 무작위이고 독립적이지 않을 경우
- 평균과 표준편차를 구할 수는 있지만, 거기서 결론을 도출해서는 안됨
- 데이터가 어떻게 수집되었는지 이해하고 분석에 사용된 가정이 만족되었는지 확인
실습 코드
728x90
'Data Science, ML > MIT- Introduction to Data Science' 카테고리의 다른 글
[MIT] Data Science - 15. Statistical Sins and Wrap Up (0) | 2021.06.02 |
---|---|
[MIT] Data Science - 13. Classification (0) | 2021.06.01 |
[MIT] Data Science - 12. Clustering (0) | 2021.06.01 |
[MIT] Data Science - 11. Introduction to Machine Learning (0) | 2021.05.31 |
[MIT] Data Science - 10. Understanding Experimental Data (0) | 2021.05.28 |