통계적 방법에 따른 DEG 분석 (R)

DEG by Statistical test 유전자 발현 데이터를 사용하여 표본 통계량(평균, 표준편차 등)을 구함 표본 통계량을 통해 모집단의 분포를 가정 실험/대조군의 차이를 유의확률(p-value)로 나타냄 일반적으로 p-value 극단적인 값이 나올 확률이 적다. p-value가 작을수록 현재 관찰한 값이 극단적이라는 얘기(차이가 크다) P-value에 대해 좀 더 자세한 내용은 아래 블로그 참고 p-value의 의미 - 공돌이의 수학정리노트 angeloyeo.github.io P-value and Empirical Testing of Differential Expression Normal cell: 1, 2, 2, 2, 3 Cancer cell: 2.5 인 경우를 가정해보자. Empirical p..

→2021.08.25

Bioinformatics

Fold change에 따른 DEG 분석(Python)

바이오마커 표현형(phenotype)의 표지/원인이 되는 유전자 질병의 진단, 치료 등에 활용 차별적 발현 유전자(DEG, Differentially Expressed Genes) RNA 데이터에서 차별적 발현 유전자(DEG) 검출 분석 과발현 : 실험군(e.g. 폐암환자군)에서 이상적으로 양이 많이 발현 되어 있는 유전자 저발현 : 실험군(e.g. 폐암환자군)에서 이상적으로 양이 적게 발현 되어 있는 유전자 차별적 발현 유전자는 꼭 바이오마커라고는 볼 수 없지만 바이오마커의 후보라고 볼 수 있음 DEG를 찾아내는 3가지 방법 Fold Change(계산이 단순, 간단하게 분석하고 싶을 때, 옛날에 많이 썼음, 학술적이지 않다는 의견) P-value(Statistics, 통계학적 접근) Machine Le..

→2021.08.25

Bioinformatics

바이오마커 유전자 분석

RNA-seq 데이터 생성 예시 유전자 발현량 데이터 예시 가로축: TCGA 환자 ID 세로축: 유전자 ID ?|8225 -> 과발현(Up-DEG) ?|90288 -> 저발현(Down-DEG) DEG(Differentially Expressed Gene): 정상인에 비해 양의 차이가 있는 Gene 문자화된이름|숫자화된이름 : 문자: 유전자의 기능을 발견한 사람이 그 기능을 바탕으로 이름을 붙인 Fullname의 축약어 숫자: 문자 이름만으로는 명확히 구분하기 어렵기 때문에 숫자로 numbering을 한 것 TCGA 환자 ID 명명 규칙 Sample: 암세포인지 정상세포인지 01: Primary Solid Tumor 02: Recurrent Solid Tumor 10: Blood Derived Normal..

→2021.08.24

Bioinformatics

TCGA 데이터

TCGA (The Cancer Genome Atlas) 암에 관한 유전변이 데이터를 통합 축적하고, 생물정보 분석하고자 하는 목적으로 2005년에 시작된 대규모 프로젝트 미국 NCI(National Cancer Institute)와 NHGRI(National Human Genome Research Institute)에서 운영 관리 유전자 지도를 완성하고 나서 가장 궁금했을 법한 암에 관한 정보를 알아내어 암을 정복하고자 하는 목표로 시작 Human Genome: 1명의 Genome 완성 GWAS(1000 Genome Project): 1000명의 Genome 분석 및 비교 조사 33 종류의 전사적 암에 대해 조사(전체 11,000명의 환자) 7종류의 유전체 데이터 타입에 대한 전사적 조사 (Multi-O..

→2021.08.24

Bioinformatics

유전체 시퀀싱 분석

바이오마커 표현형(phenotype)의 표지가 되는 생물학적 요인(사람들이 암, 당뇨 혹은 면역질환에 걸렸을 때 찾고자 하는 원인) -> 치료에 이용할 수 있음 돌연변이 유전자, 항원/항체 등 질병의 진단, 치료 등에 활용 예전에는 가설 기반 실험 위주였는데, 요즘은 Data-driven 생물학. 경험이나 직관이 아닌 데이터 모으고 분석함. (바이오마커 Candidate로 삼고 실험 후 바이오마커를 찾아냄) 생체 시스템의 계층적 구조와 데이터 유전자 데이터 -> 세포 내 분자 단위의 가장 정밀한 바이오마커 정보를 포함 고배열 현미경 데이터 X-ray, CT 데이터 혈당, 간수치 데이터 신체 데이터: 안색, 외관, 맥박, 혈압 등 Central Dogma 세포 분자 데이터의 핵심 원리 세포라는 시스템이 어..

→2021.08.24

Bioinformatics

정보의학개론 - 의료정보학 개요

Bio-medical Informatics, BMI 인간의 건강을 향상시키기 위한 노력에 의해 동기가 부여된, 과학적 탐구, 문제 해결 및 의사 결정을 위한 생체의학 데이터, 정보 및 지식의 효과적인 사용을 연구하고 추구하는 다학제 분야. 보건의료정보학(Healthcarae Informatics) 인류의 건강향상, 보건의료 분야의 문제해결, 의사결정을 위해 데이터, 정보, 지식의 저장과 검색 및 활용을 다루는 과학분야 Bio-medical science, Information technology, applied science 의생명정보학 (Bio-medical Informatics) 정보의학(Information Medicine) 의학 지식 + 환자 정보 -> 진료 및 치료 의사결정 -> 치료 실행 =>..

→2021.08.23

Bioinformatics/Biomedical Data Science

[Biomedical Data Science] - 8. 바이오헬스와 데이터 모델링

[Biomedical Data Science] - 8. 바이오헬스와 데이터 모델링 바이오헬스와 데이터 모델링 모델: 의사소통에 대한 기록을 남기는 것 모델링: 일정한 표기법으로 모델을 만들어가는 일 자체 모델링의 특징 추상화(일정한 형식에 맞추어 표현) 단순화(제한된 표기법이나 언어로 표현 -> 쉽게 이해할 수 있도록) 명확화(애매모호함을 제거하고 정확하게 기술) 모델링의 관점 데이터관점(데이터 간의 관계) 프로세스관점(업무가 실제로 하고 있는 일은 무엇인지) 데이터와 프로세스의 상관관점(어떤 관계인지) 데이터 모델링: 데이터베이스의 골격을 이해하고 그 이해를 바탕으로 SQL 문장을 기능과 성능적인 측면에서 효율적으로 작성하기 위해 꼭 알아야 하는 핵심 요소 중요성: 파급효과, 복잡한 정보 요구사항의 간..

→2021.07.20

Bioinformatics/Biomedical Data Science

[Biomedical Data Science] - 7. 바이오헬스 데이터

[Biomedical Data Science] - 7. 바이오헬스 데이터 바이오 데이터 생물정보 유전체, 생물체 정보 등 다양한 생물 정보에 대한 데이터 바이오데이터의 종류 서열데이터: DNA/RNA 유전체 데이터, EST(Expressed Sequence Tag) 서열, SNP 데이터 등 구조데이터: 단백질 3차 주고 데이터 발현데이터: SAGE 데이터(Serial Analysis of Gene Expression) EST 데이터를 비롯해 수천에서 수 만에 이르는 유전자의 발현량을 한꺼번에 측정할 수 있는 Microarray 데이터 네트워크 데이터: pathway, protein interaction 데이터 텍스트 데이터: 논문 등과 같은 문서 형태로 저장된 텍트스 데이터 헬스데이터 의료 정보나 건강 ..

→2021.07.12

티스토리툴바