의료 빅데이터
- Sampling을 하지 않고 전체 환자군을 대상으로 분석
- Sample이 얼마나 Real world와 비슷한지 통계적 처리를 할 필요 없이, 아예 전체 환자 대상 분석이 가능
- 소규모 데이터에서는 Detection 불가능했던 다양한 분석 결과 도출 가능
정밀의료 빅데이터
- 협의: Genetic analysis 기반 데이터
- 광의: Life-log, CLinical Bigdata를 활용한 Prediction model 개발, Signal Detection 등
- 환자들에 대한 모든 데이터, 의료 관련 모든 데이터를 활용해서 어떤 의미를 도출해 내는 것
세계 각국의 (암)환자 등록 사업
- 국가망을 이용한 임상 빅데이터들의 구축 추세
SEER Database
(Surveillance, Epidemiology, End Results)
- 미국 국림암연구소(NCI)에서 운영하는 공식화된 암환자 등록 자료
- 미국 전체 인구의 40% 정도가 등록되어 있음
- 미국 에서는 법적으로 새로 진단된 암환자를 registry에 등록해야만 함
- 매년 4월마다 데이터 업데이트
- De-identified data이기 때문에 IRB 승인이 필요없음
SEER Database 데이터 획득 방법
https://service.cancer.gov/seer-data-access
- SEER 데이터 접근 요청 보내기(사이트에서 신청 가능, 요청서 작성 후 제출, 메일 인증 필요)
- SEER*stat 프로그램 다운로드(다운로드할 때도 사이트에서 간단한 서류를 작성해서 제출해야 함)
- 자료 승인 받은 후(1-2일 소요)
- 주어진 ID로 SEER*stat 프로그램에 접속하여 데이터 다운로드
- 수술이 아닌 약물/방사선 치뇨 내용에 관한 데이터는 추가 요청 메일 필요(수 일 소요)
SEER Database 데이터 분석 방법
- 기본적으로 SEER*stat 프로그램에서 제공하는 분석 기능을 직접 활용(tutorial 이용할 것)
- 데이터를 따로 받아서 기존 분석 프로그램(R, SPSS, Stat 등)으로 분석 가능
- 타 프로그램보다 SEER*stast 프로그램이 더 좋은 기능도 있음(모델화가 잘 되어 있음)
다른 통계 프로그램 활용시
- SEER*stat -> File -> New -> Case listing session
- SEER DB의 코딩 Rule을 참조하여 각 칼럼을 해석할 수 있음
R 프로그래밍
- 다양한 분석 tool 제공
- 실시간으로 새로운 패키지나 방법들이 추가됨
- 상대적으로 빠름
- 그림이 예쁨(그래픽이 좋음)
- Genetic 분석을 위한 package 개발이 잘 되어 있음
- 참고: 데이터 크기에 따른 각 프로그램의 역치: SQL > R, Python > SPSS
- => 지나치게 큰 데이터인 경우 SQL로 먼저 원하는 데이터만 산출해내고 그 데이터를 다시 R/Python으로 분석
19:17
728x90
'Bioinformatics' 카테고리의 다른 글
MIMIC-III 데이터 접근 및 활용(+CITI, Physionet) (0) | 2022.02.08 |
---|---|
희귀질환 환자 진단 및 치료제 개발을 위한 인공지능의 활용 방안 (0) | 2022.01.31 |
정보의학개론 - 임상시험과 자료관리 (0) | 2022.01.04 |
정보의학개론 - 연구정보시스템과 Clinical Research Informatics (0) | 2022.01.03 |
[논문 리뷰] DeepLung: Deep 3D Dual Path Nets for Automated Pulmonary Nodule Detection and Classification (0) | 2021.11.28 |