MIMIC-III 데이터 접근 및 활용(+CITI, Physionet)
MIMIC-III 데이터란?
- MIMIC-III의 약자 = Medical Information Mart for Intensive Care III
- Beth Israel Deaconess Medical Center 중환자실에서 발생한 데이터를 MIT에서 정리하고 개발
- 2001년부터 2012년까지 약 4만 명 이상의 비식별 보건의료 데이터를 포함
- 중환자실에 머물렀던(ICU Stays, Intensive Care Unit Stays) 총 61,532명의 환자
- 성인 53,432명 + 영아 8,100명
- 인구통계학(demographics), 활력 징후(vital sign), 실험실 결과, 처방전, 간병인 메모, 이미지 기록, 사망 여부 등의 데이터를 포함
- 중환자실에 머물렀던(ICU Stays, Intensive Care Unit Stays) 총 61,532명의 환자
- 무료로 공개된 다년간의 중환자입원 기록으로, 다양한 의료정보 분석에 활용됨.
- 약 6만여명의 중환자실 입원 기록을 비식별화하여 제공
- 이 데이터에 포함된 환자들은 2001년부터 2012년까지 Beth Israel Deaconess Medical Center의 중환자실에 입원했던 환자들
- 기본적인 인구통계, 바이탈 사인, 진단 검사, 투약 등의 데이터를 포함
- 이 데이터베이스를 활용한 해커톤이 전세계적으로 열리고 있음
- 2018년부터 한국에서도 국가임상시험지원재단(KONECT) 주최로 열린 임상 빅데이터 마라톤(데이터톤)에 활용되고 있음
- 현재 이 데이터베이스를 참고하여 출판된 논문은 2004년 이래로 252건이며, 출간된 책은 13건이 있음
- 관련된 Github 오픈소스도 현재 66개 있는만큼 일반적으로 널리 쓰이는 데이터셋
MIMIC-III의 주요 키
- 환자는 subject_id로 식별할 수 있음
- 환자의 입퇴원은 hadm_id로 식별할 수 있으며, 환자는 1회 이상의 입원을 할 수 있음
- 환자는 입원한 동안에 중환자실에 입퇴원 할 수 있으며, 이는 icustay_id로 식별됨
- 환자는 1회 이상 중환자실에 입원했다가 일반병실로 돌아올 수 있음
데이터 접근 권한 얻기
MIMIC-III 데이터에 접근하기 위해선 먼저 the CITI “Data or Specimens Only Research” course 를 수강 완료해야 함
CITI Program은 2000년 설립된 생명과학연구윤리 온라인 교육과정입니다. 인간 및 동물을 대상으로 연구를 수행하는 데 필요한 법정교육과 역량 강화를 위한 현장 중심의 사례 교육과정을 제공하고 있으며, 각 분야 전문가들로 구성된 교육위원 및 자문위원들의 의견 수렴을 통해 미국 뿐만 아니라 국제적으로 인증받은 질적인 콘텐츠를 제공하고 있습니다. 전세계 2,200개 기관이 이용하고 있으며 매년 백만명 정도의 학습자가 교육과정을 수료하고 있습니다.
https://mimic.physionet.org/gettingstarted/access/
위 강의를 수강하기 위해선 CITI Program 웹사이트에 먼저 가입해야 한다.
https://www.citiprogram.org/index.cfm?pageID=154&icat=0&ac=0
영문 회원가입 페이지를 만나게 되는데 당황하지 말자. 우선 Select Your Organization Affiliation에 Massachusetts Institute of Technology Affiliates를 입력하자.
일반적인 회원가입 과정(Steps 2 - 5)을 진행하다 보면 다음 페이지를 만나게 된다.
- Institutional Email Address엔 가입한 개인 이메일을 입력한다.
- Department에는 Computer Science를 입력한다. [2]
- Role In Research에는 자신과 가장 가까운 것을 선택하자. [2]
이제 마지막으로 커리큘럼을 선택하는 화면을 만나게 된다.
Question 1 - Human Subjects에서 "Data or Specimens Only Research"를 선택하자.
Question 6은 원하는 답변을 선택하면 된다.
가입을 완료하고 Finalize Registration을 누르면 CITI Program 페이지를 만나게 된다. View courses - Start now 순으로 버튼을 누르자.
간단한 약관 동의 후에는 수강해야 할 9개의 모듈을 확인할 수 있다. 각 모듈에는 약간의 퀴즈가 포함되어 있다. (정답 제출 회수에 제한은 없다.)
강의 내용에 관심이 없는 경우 빠르게 퀴즈부터 풀기를 권유한다. 답안 제출 회수에 대한 제한이 없고, 퀴즈 총점이 90점 이상이면 통과이다.
이 화면에서 Completion Report의 View / Print를 누른 후 pdf 파일로 저장해놓자.
이 pdf 파일은 MIMIC-III 데이터를 다운로드 할 때 필요하다.
PhysioNet 회원 가입
the CITI “Data or Specimens Only Research” course를 수강 완료했으니 이제 데이터를 다운로드 받을 차례다. 우선 https://physionet.org 에서 회원가입을 진행하자. (Account - Register)
데모 데이터 다운로드
위 링크에서는 환자 100 명의 샘플을 credentialing 없이도 다운로드 받을 수 있게 공개되어 있다. 하지만 일부 환자의 데이터만 포함하고 있기 때문에 포괄적이고 깊은 분석을 위해서는 다음에 나오는 credentialing을 마치고 전체 데이터셋을 다운 받길 추천한다.
Credentialing
회원가입을 완료했으면 자신의 계정 정보 - Settings - Credentialing을 누르자. 다음과 같은 화면을 만나면 apply for access를 누르자.
참고 사이트
- https://baeseongsu.github.io/posts/mimiciii/
- 국가임상시험지원재단, https://www.konect.or.kr/
- 임상 빅데이터 마라톤, http://datathon.konect.or.kr/
- MIMIC-III의 참고문헌, https://mimic.physionet.org/about/publications/