이진 데이터
특정 사건의 발생 유무와 같이 단 두 가지 값으로 이루어진 데이터
이진 데이터들의 평균은 비율로 표시됨.
긍정/부정 메시지 프레이밍
같은 데이터를 긍정적/부정적 의미를 나타내는 결과로 전달하는 것
ex) 5% 사망률 == 95% 생존률
정보 전달을 정확히 하기 위해서는 결론을 긍정/부정 메시지 프레이밍 모두를 사용해서 표현하고 절대적인 숫자와 상대적인 요약을 모두 제공하는 것이 중요함.
막대그래프와 점 그래프
범주형 자료 Categorical Variable
범주형 변수: 두 개 이상의 범주(Category)를 값으로 가지는 변수
- 순서가 없는 범주: 국적, 성별
- 순서가 있는 범주: 계급
- 일련의 그룹으로 묶인 숫자들(BMI 기준 비만 측도)
파이차트
사람의 눈은 면적의 차이를 식별하지 쉽지 않기 때문에 파이차트의 경우 실제 표시된 숫자를 보고 그 영역의 비율을 인지하는 것이며 어느 영역이 더 크게 보이는지를 시각적인 효과만으로 분별하는 것은 거의 불가능.
파이차트는 절대 사용하지 말 것!
절대 위험도 Absoulte risk
각 집단에서 위험에 처해지는 비율
상대 위험도
위험 요인이 있는 집단의 절대 위험도 / Control group의 절대 위험도
상대위험도의 값이 높다고 하더라도 절대위험도 자체가 작을 경우 실제 위험 자체는 크게 문제가 되지 않을 수도 있다.
기대빈도, 오즈와 오즈비
- 기대도수: 주어진 집단에서 특정 사건이 일어나는 개수의 예측값
- 오즈(Odds): 승산. 특정 사건이 일어날 확률을 p라고 할때 odds(p) = p/(1-p)로 정의된다.
- 오즈비: 위험요인이 있는 집단의 오즈 / Control group의 오즈
(절대위험도가 굉장히 작은 경우 오즈비와 상대위험도 값이 비슷해짐)
집단 지성
다수의 개체들이 서로 협력 혹은 경쟁을 통하여 얻게 되는 결과(집단적 능력)
통계량
자료의 특징을 나타내는 몇 가지 요약값
- 평균: 데이터의 총합/데이터의 개수
- 중앙값: 가운데에 있는 값
- 최빈수: 가장 많이 관측되는 값
분포
데이터가 가지는 모든 값의 형태
연속형 자료의 시각화
Strip-chart, Box plot, Histogram
자료의 퍼짐 대푯값
- 범위 : 최댓값 - 최솟값
- IQR : Q3-Q1(Q1과 Q3는 1사분위수와 3사분위수를 나타냄)
- 표준편차 : 분산의 제곱근
그림 상자
5가지 통계량(Upper whisker, Q3, 중앙값, Q1, Lower whisker)과 이상치를 함께 제시하는 시각화 방식
Whisker: 사분위수로부터 1.5 IQR 이내에 떨어진 점 or 최댓/최솟점(IQR = Q3-Q1)
로버스트 통계량 Robust Statistics
한 개의 데이터 값의 변화에 크게 좌우되지 않는 통계량
- 중앙값
- IQR
Strip Chart(Dot plot)
자료들이 겹치는 부분은 진한 색으로 표시, 시각적 효과를 살리기 위해 자료를 흐트려서(jittering) 겹치지 않게 보이게 할 수도 있음.
히스토그램 Histogram
데이터를 몇 개의 구간으로 나눈 후에 각 구간에 포함된 데이터 개수를 그림으로 나타낸 것
Modality와 Skewness
728x90
'Math' 카테고리의 다른 글
[데이터 사이언스를 위한 통계학] 자료 수집 (0) | 2021.06.22 |
---|