R과 SEER DB를 활용한 데이터 분석
Bioinformatics

R과 SEER DB를 활용한 데이터 분석

의료 빅데이터

  • Sampling을 하지 않고 전체 환자군을 대상으로 분석
  • Sample이 얼마나 Real world와 비슷한지 통계적 처리를 할 필요 없이, 아예 전체 환자 대상 분석이 가능
  • 소규모 데이터에서는 Detection 불가능했던 다양한 분석 결과 도출 가능

정밀의료 빅데이터

  • 협의: Genetic analysis 기반 데이터 
  • 광의: Life-log, CLinical Bigdata를 활용한 Prediction model 개발, Signal Detection 등
  • 환자들에 대한 모든 데이터, 의료 관련 모든 데이터를 활용해서 어떤 의미를 도출해 내는 것

 

세계 각국의 (암)환자 등록 사업

  • 국가망을 이용한 임상 빅데이터들의 구축 추세

 

SEER Database

(Surveillance, Epidemiology, End Results) 

 

SEER Incidence Database - SEER Data & Software

SEER research data include incidence and population data associated by age, sex, race, year of diagnosis, and geographic areas. Research Data Agreement is required.

seer.cancer.gov

  • 미국 국림암연구소(NCI)에서 운영하는 공식화된 암환자 등록 자료
  • 미국 전체 인구의 40% 정도가 등록되어 있음
  • 미국 에서는 법적으로 새로 진단된 암환자를 registry에 등록해야만 함
  • 매년 4월마다 데이터 업데이트
  • De-identified data이기 때문에 IRB 승인이 필요없음

 

SEER Database 데이터 획득 방법

https://service.cancer.gov/seer-data-access

 

SEER Incidence Data Request - ODS SEER Data Access Request

 

service.cancer.gov

 

  1. SEER 데이터 접근 요청 보내기(사이트에서 신청 가능, 요청서 작성 후 제출, 메일 인증 필요)
  2. SEER*stat 프로그램 다운로드(다운로드할 때도 사이트에서 간단한 서류를 작성해서 제출해야 함)
  3. 자료 승인 받은 후(1-2일 소요)
  4. 주어진 ID로 SEER*stat 프로그램에 접속하여 데이터 다운로드
  5. 수술이 아닌 약물/방사선 치뇨 내용에 관한 데이터는 추가 요청 메일 필요(수 일 소요)

 

SEER Database 데이터 분석 방법

  • 기본적으로 SEER*stat 프로그램에서 제공하는 분석 기능을 직접 활용(tutorial 이용할 것)
  • 데이터를 따로 받아서 기존 분석 프로그램(R, SPSS, Stat 등)으로 분석 가능
  • 타 프로그램보다 SEER*stast 프로그램이 더 좋은 기능도 있음(모델화가 잘 되어 있음)

 

다른 통계 프로그램 활용시

  • SEER*stat -> File -> New -> Case listing session
  • SEER DB의 코딩 Rule을 참조하여 각 칼럼을 해석할 수 있음

R 프로그래밍

  • 다양한 분석 tool 제공
  • 실시간으로 새로운 패키지나 방법들이 추가됨
  • 상대적으로 빠름
  • 그림이 예쁨(그래픽이 좋음)
  • Genetic 분석을 위한 package 개발이 잘 되어 있음
  • 참고: 데이터 크기에 따른 각 프로그램의 역치: SQL > R, Python > SPSS
    • => 지나치게 큰 데이터인 경우 SQL로 먼저 원하는 데이터만 산출해내고 그 데이터를 다시 R/Python으로 분석

 

 

19:17

 

 

 

 

 

728x90