Bioinformatics

TCGA 데이터

JOFTWARE 2021. 8. 24. 15:18

TCGA (The Cancer Genome Atlas)

에 관한 유전변이 데이터를 통합 축적하고, 생물정보 분석하고자 하는 목적으로 2005년에 시작된 대규모 프로젝트

  • 미국 NCI(National Cancer Institute)와 NHGRI(National Human Genome Research Institute)에서 운영 관리
  • 유전자 지도를 완성하고 나서 가장 궁금했을 법한 암에 관한 정보를 알아내어 암을 정복하고자 하는 목표로 시작
  • Human Genome: 1명의 Genome 완성
  • GWAS(1000 Genome Project): 1000명의 Genome 분석 및 비교 조사
  • 33 종류의 전사적 암에 대해 조사(전체 11,000명의 환자)

7종류의 유전체 데이터 타입에 대한 전사적 조사 (Multi-Omics: 멀티 데이터 타입)

- 전체 데이터 사이즈 = 2.5 peta bytes = 2,500 tera bytes = 2,500,000 giga bytes

  • DNA 관련: Mutation(돌연변이), Copy number(유전자가 DNA안에 여러 copy가 있는 경우가 있음) 
  • RNA 관련: Gene Expression, MicroRNA
  • 프로틴 관련: RPPA

Raw data(Level 1) 및 표준화된 정형 데이터(Level 3)를 제공함

- Level 1, 2의 경우 별도의 접근 권한을 허가 받아야 함

1: Short read Data(FASTA File)

2: Mapping한 Data(Alignment Data)

3. 테이블 형태로 정리된 데이터(Count Data/Gene Expression Data, 주로 많이 씀)

4. 조금 더 가공된 데이터

 

RAN-seq analysis workflow

728x90