Math

[데이터 사이언스를 위한 통계학] 자료 수집

 전통적인 통계학 과목 개요

  • 자료의 소개와 요약 통계량
  • 확률과 확률분포
  • 표본분포
  • 각종 검정 방법(𝑡,𝑍, 𝜒 2 ,𝐹)
  • 실제 사용 사례

 

데이터 사이언스를 위한 통계학

  • 실제 문제를 통한 동기유발
  • 데이터 시각화와 탐색적 자료 분석
  • 데이터를 통해서 알아낼 수 있는 지식에 집중(내재되어 있는 편향, 인과관계 등)
  • 모형과 알고리즘
  • 확률 이론 기반의(예측에 관한) 불확실성의 근거 제시

 

PPDAC

Problem-Plan-Dana-Analysis-Conclusion

통계학자들이 통계적 절차를 사용하여 문제를 어떻게 해결하는지 나타낸 통계적 사고 과정을 모델링한 것.

 

연구 설계

  • 실험군: Treantment group
  • 대조군: Control group
  • 반응 변수: Response variable
  • 설명 변수: Explanatory variable

한 쌍의 변수가 주어진 경우, 한 변수가 다른 변수에 영향을 줄 때 전자를 설명변수, 후자를 반응변수라고 함.

두 변수 사이의 연관성을 보이는 것이 반드시 인과성을 보이는 것은 아님.

 

실험계획의 원칙

  • Controlling: 임상 시험에서 control group은 위약(placebo)을 받는다.
  • 임의할당(Randomization): Control group과 treatment group에 참가자를 임의로 할당한다.
  • 반복(Replication): 충분이 큰 표본 사용.
  • 이중 암맹(참가자와 연구자 모두 참가자가 어느 group에 속해 있는지 연구가 끝날 때까지 알려주지 않는다.)
  • 블록화(Blocking): 반응 변수에 영향을 미치는 다른 변수가 있을 경우 참가자들을 그 변수 값에 따라 block을 나눈 후 block별로 참가자를 임의로 treatment group에 할당한다.

 

자료수집 유형

  • 실험: 연구자가 실험 참가자를 임의로 다양한 조건 하에 배치하여 설명변수와 반응변수 사이의 인과성(Casuality)을 조사
  • 관측연구(Observational Study): 연구자가 자료를 관측하면서 수집하는 경우로 자료의 생성과정에 전혀 관여하지 않는다. 이 경우 설명변수와 반응변수의 연관성(association)을 밝히는데 초점을 둔다. (연과성 != 인과성)

 

전향적 연구

  • 연구자가 대상자를 추적 관찰하면서 관련 정보를 얻음.
  • 실험과 관측연구 모두에서 사용.

 

후향적 연구

  • 이미 일어난 일에 대한 정보를 얻는 연구.
  • 주로 관측연구에서 사용.

 

심슨의 역설 Simpson's Paradox

제 3의 요인으로 전체 자료를 세분화했을 때 정반대의 결과가 나오는 것

 

교락효과 Confounder Effect

교락 요인: 반응 변수와 설명 변수에 모두 영향을 미치는 변수.

교락 요인을 통제하여야만 반응변수가 순수하게 설명변수에 미치는 영향을 알 수 있음.

교락 요인 통제 방법

  • 교락 요인의 값에 따라 그룹을 나눈 후 반응변수와 설명변수의 관계를 알아본다.(Subgroup Analysis)
  • 가중평균을 사용한다.
728x90

'Math' 카테고리의 다른 글

[데이터 사이언스를 위한 통계학] 자료의 유형과 요약  (0) 2021.06.23