Data Science, ML/Kaggle

    SQL with Python (Google BigQuery)

    0. Google BigQuery 빅쿼리는 확장성이 뛰어나고 가격 대비 성능이 좋은 기업용 서버리스 데이터 웨어하우스 입니다. 객체 스토리지(메타데이터와 고유의 식별자를 통해 객체로 저장), 스프레드시트의 데이터, 관리형 열 형식 스토리지(분석 앱에서 데이터 열을 빠르게 검색하는데 최적화) 를 통해 논리적 데이터 웨어하우스를 생성하여 모든 배치와 연속적으로 생성되는 스트리밍 데이터를 분석합니다. 공식 페이지에서 장점이나 기능, 그리고 사용 사례 등 궁금해할 수 있는 전반적 내용 확인이 가능합니다. BigQuery: 클라우드 데이터 웨어하우스 | Google Cloud BigQuery는 비용 효율성을 갖춘 서버리스 멀티 클라우드 데이터 웨어하우스로, 빅데이터에서 가치 있고 유용한 비즈니스 정보를 얻을 수 ..

    [Kaggle] Data Cleaning 데이터 정제

    1. Handling Missing Values Missing Value 처리하기 Drop missing values, or fill them in with an automated workflow. # modules we'll use import pandas as pd import numpy as np # read in all our data nfl_data = pd.read_csv("../input/nflplaybyplay2009to2016/NFL Play by Play 2009-2017 (v4).csv") # set seed for reproducibility np.random.seed(0) # get the number of missing data points per column missing_va..