Data Science, ML

    [MIT] Data Science - 2. Optimization Problems

    Introduction to Computational Thinking and Data Science (6.0002, Fall 2016) Introduction to Computational Thinking and Data Science 6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol ocw.mit.e..

    [MIT] Data Science - 1. Introduction and Optimization Problems

    Introduction to Computational Thinking and Data Science (6.0002, Fall 2016) Introduction to Computational Thinking and Data Science 6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol ocw.mit.e..

    [MIT] Introduction to Computational Thinking and Data Science

    Introduction to Computational Thinking and Data Science (6.0002, Fall 2016) Introduction to Computational Thinking and Data Science 6.0002 is the continuation of 6.0001 Introduction to Computer Science and Programming in Python and is intended for students with little or no programming experience. It aims to provide students with an understanding of the role computation can play in sol ocw.mit.e..

    SQL with Python (Google BigQuery)

    0. Google BigQuery 빅쿼리는 확장성이 뛰어나고 가격 대비 성능이 좋은 기업용 서버리스 데이터 웨어하우스 입니다. 객체 스토리지(메타데이터와 고유의 식별자를 통해 객체로 저장), 스프레드시트의 데이터, 관리형 열 형식 스토리지(분석 앱에서 데이터 열을 빠르게 검색하는데 최적화) 를 통해 논리적 데이터 웨어하우스를 생성하여 모든 배치와 연속적으로 생성되는 스트리밍 데이터를 분석합니다. 공식 페이지에서 장점이나 기능, 그리고 사용 사례 등 궁금해할 수 있는 전반적 내용 확인이 가능합니다. BigQuery: 클라우드 데이터 웨어하우스 | Google Cloud BigQuery는 비용 효율성을 갖춘 서버리스 멀티 클라우드 데이터 웨어하우스로, 빅데이터에서 가치 있고 유용한 비즈니스 정보를 얻을 수 ..

    파이썬으로 시작하는 데이터 사이언스 3 - Pandas 기초

    Pandas : 수식으로 계산할 수 있고 시각화도 할 수 있는 데이터 분석도구입니다. 엑셀로도 데이터를 분석할 수 있는데 왜 판다스를 사용하는 것일까요? 엑셀로는 힘든 대용량의 데이터를 판다스는 분석할 수 있기 때문입니다. 아래에 첨부된 10 minutes to pandas를 한 번씩 실행해보시면 판다스의 전반적인 것을 익힐 수 있습니다. (다만, 10 minutes는 문서를 스크롤 하는데 걸리는 시간입니다ㅎㅎ 실제로는 더 오래 걸립니다.) 추가로 같이 첨부된 Pandas Cheat Sheet도 추천드립니다. 우선 판다스를 불러보겠습니다. import pandas as pd 일반적으로 as pd라고 정해줍니다. 이는 쉽게 별칭을 지어준다고 보시면 됩니다. 별칭을 지어주시면 나중에 불러올 때 굳이 다 적지..

    파이썬으로 시작하는 데이터 사이언스 2 - 데이터 분석을 위한 파이썬 속성 기초

    Zen of Python - 파이썬의 철학이 잘 담겨있는 Zen of Python을 출력해 봅니다. import this #결과 : # The Zen of Python, by Tim Peters # # Beautiful is better than ugly. # Explicit is better than implicit. # Simple is better than complex. # Complex is better than complicated. # Flat is better than nested. # Sparse is better than dense. # Readability counts. # Special cases aren't special enough to break the rules. # Alth..

    파이썬으로 시작하는 데이터 사이언스 1 - 데이터 분석 환경 구성

    아나콘다 설치 아나콘다는 파이썬/R과 관련된 다양한 패키지들을 관리하고 있습니다. 아나콘다를 설치하려면 아래의 링크로 들어가서 자신의 OS에 맞게 다운받아서 설치하실 수 있습니다. 주피터 노트북 활용 아나콘다를 설치를 하셨으면 정말 정말 유용한 Jupyter Notebook을 사용하실 수 있습니다. 주피터 노트북을 실행하신다음 작업을 하실 폴더를 새로 만들어 주시는 것을 권장드립니다. 강의 영상에서는 'jupyter-tutorial'로 폴더를 만들었습니다. 주피터 노트북에서 파이썬3의 노트북을 실행하시려면 New -> Python3를 클릭하시면 됩니다. 주피터 노트북을 생성해 보았으면 "Hello World!"를 프린트 해봐야겠죠? 주피터 노트북은 아래와 같이 코드의 결과가 바로 볼 수 있는 것이 가장 ..

    [Kaggle] Data Cleaning 데이터 정제

    1. Handling Missing Values Missing Value 처리하기 Drop missing values, or fill them in with an automated workflow. # modules we'll use import pandas as pd import numpy as np # read in all our data nfl_data = pd.read_csv("../input/nflplaybyplay2009to2016/NFL Play by Play 2009-2017 (v4).csv") # set seed for reproducibility np.random.seed(0) # get the number of missing data points per column missing_va..