Bioinformatics
TCGA 데이터
JOFTWARE
2021. 8. 24. 15:18
TCGA (The Cancer Genome Atlas)
암에 관한 유전변이 데이터를 통합 축적하고, 생물정보 분석하고자 하는 목적으로 2005년에 시작된 대규모 프로젝트
- 미국 NCI(National Cancer Institute)와 NHGRI(National Human Genome Research Institute)에서 운영 관리
- 유전자 지도를 완성하고 나서 가장 궁금했을 법한 암에 관한 정보를 알아내어 암을 정복하고자 하는 목표로 시작
- Human Genome: 1명의 Genome 완성
- GWAS(1000 Genome Project): 1000명의 Genome 분석 및 비교 조사
- 33 종류의 전사적 암에 대해 조사(전체 11,000명의 환자)
7종류의 유전체 데이터 타입에 대한 전사적 조사 (Multi-Omics: 멀티 데이터 타입)
- 전체 데이터 사이즈 = 2.5 peta bytes = 2,500 tera bytes = 2,500,000 giga bytes
- DNA 관련: Mutation(돌연변이), Copy number(유전자가 DNA안에 여러 copy가 있는 경우가 있음)
- RNA 관련: Gene Expression, MicroRNA
- 프로틴 관련: RPPA
Raw data(Level 1) 및 표준화된 정형 데이터(Level 3)를 제공함
- Level 1, 2의 경우 별도의 접근 권한을 허가 받아야 함
1: Short read Data(FASTA File)
2: Mapping한 Data(Alignment Data)
3. 테이블 형태로 정리된 데이터(Count Data/Gene Expression Data, 주로 많이 씀)
4. 조금 더 가공된 데이터
RAN-seq analysis workflow
728x90