[데이터 사이언스를 위한 통계학] 자료의 유형과 요약
Math

[데이터 사이언스를 위한 통계학] 자료의 유형과 요약

이진 데이터

특정 사건의 발생 유무와 같이 단 두 가지 값으로 이루어진 데이터

이진 데이터들의 평균은 비율로 표시됨.

 

긍정/부정 메시지 프레이밍

같은 데이터를 긍정적/부정적 의미를 나타내는 결과로 전달하는 것
ex) 5% 사망률 == 95% 생존률

정보 전달을 정확히 하기 위해서는 결론을 긍정/부정 메시지 프레이밍 모두를 사용해서 표현하고 절대적인 숫자와 상대적인 요약을 모두 제공하는 것이 중요함.

 

막대그래프와 점 그래프

 

범주형 자료 Categorical Variable

범주형 변수: 두 개 이상의 범주(Category)를 값으로 가지는 변수

  • 순서가 없는 범주: 국적, 성별
  • 순서가 있는 범주: 계급
  • 일련의 그룹으로 묶인 숫자들(BMI 기준 비만 측도)

 

파이차트

사람의 눈은 면적의 차이를 식별하지 쉽지 않기 때문에 파이차트의 경우 실제 표시된 숫자를 보고 그 영역의 비율을 인지하는 것이며 어느 영역이 더 크게 보이는지를 시각적인 효과만으로 분별하는 것은 거의 불가능.

파이차트는 절대 사용하지 말 것!



절대 위험도 Absoulte risk

각 집단에서 위험에 처해지는 비율

 

상대 위험도

위험 요인이 있는 집단의 절대 위험도 / Control group의 절대 위험도

상대위험도의 값이 높다고 하더라도 절대위험도 자체가 작을 경우 실제 위험 자체는 크게 문제가 되지 않을 수도 있다.

 

기대빈도, 오즈와 오즈비

  • 기대도수: 주어진 집단에서 특정 사건이 일어나는 개수의 예측값
  • 오즈(Odds): 승산. 특정 사건이 일어날 확률을 p라고 할때 odds(p) = p/(1-p)로 정의된다.
  • 오즈비: 위험요인이 있는 집단의 오즈 / Control group의 오즈
    (절대위험도가 굉장히 작은 경우 오즈비와 상대위험도 값이 비슷해짐)

 

집단 지성

다수의 개체들이 서로 협력 혹은 경쟁을 통하여 얻게 되는 결과(집단적 능력)

 

통계량

자료의 특징을 나타내는 몇 가지 요약값
  • 평균: 데이터의 총합/데이터의 개수
  • 중앙값: 가운데에 있는 값
  • 최빈수: 가장 많이 관측되는 값

 

분포

데이터가 가지는 모든 값의 형태

 

연속형 자료의 시각화

Strip-chart, Box plot, Histogram

 

자료의 퍼짐 대푯값

  • 범위 : 최댓값 - 최솟값
  • IQR : Q3-Q1(Q1과 Q3는 1사분위수와 3사분위수를 나타냄)
  • 표준편차 : 분산의 제곱근

 

그림 상자

5가지 통계량(Upper whisker, Q3, 중앙값, Q1, Lower whisker)과 이상치를 함께 제시하는 시각화 방식

Whisker: 사분위수로부터 1.5 IQR 이내에 떨어진 점 or 최댓/최솟점(IQR = Q3-Q1)

 

로버스트 통계량 Robust Statistics

한 개의 데이터 값의 변화에 크게 좌우되지 않는 통계량
  • 중앙값
  • IQR

 

Strip Chart(Dot plot)

자료들이 겹치는 부분은 진한 색으로 표시, 시각적 효과를 살리기 위해 자료를 흐트려서(jittering) 겹치지 않게 보이게 할 수도 있음.

 

히스토그램 Histogram

데이터를 몇 개의 구간으로 나눈 후에 각 구간에 포함된 데이터 개수를 그림으로 나타낸 것

 

Modality와 Skewness

728x90

'Math' 카테고리의 다른 글

[데이터 사이언스를 위한 통계학] 자료 수집  (0) 2021.06.22