随着生物科学技术的迅猛发展,很多医院都逐渐认识到生物信息学分析的重要性,医院也陆续引进一些生信专业的人才。但是跟很多临床医生闲聊过程中,小编发现很多老师不清楚测序的意义,生信分析可以给他们带来什么好处以及公共数据库或测序数据的使用。下面小编就简单介绍下TCGA数据库、GEO数据库及生信分析带来的好处。
TCGA(The cancer genome atlas,癌症基因组图谱)由National Cancer Institute(NCI,美国国家癌症研究所)和National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于2006年联合启动的项目,收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。
TCGA数据库收录的基因组测序数据涉及到的癌症达33种,包含的组织类型达26种:ACC、BLCA、BRCA、CESC、CHOL、COAD、DLBC、ESCA、GBM、HNSC、KICH、KIRC、KIRP、LAML、LGG、LIHC、LUAD、LUSC、MESO、OV、PAAD、PCPG、PRAD、READ、SARC、SKCM、STAD、TGCT、THCA、THYM、UCEC、UCS、UVM。
TCGA中的数据类型主要有SNV(单核苷酸变异)数据、RNA-seq数据、CNV(基因拷贝数变异)数据、甲基化数据、临床数据、miRNA-seq数据,以及生物样本数据。
GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。
那既然知道有这么好的数据库,那可以为我们的科研带来什么好处呢?
答案是可以预测疾病相关的潜在基因,以及该基因潜在的作用靶点、上游调控转录因子等,从而指导实验方向,缩小试验范围,简化试验流程。为基金申请提供支持,通过强大的信息数据的收集整理,减少投入增强研究目的性;且通过整合技术优势,指导提高临床诊断水平。说的更简单一点就是我们可以从成千上万个基因里沿着研究疾病方向将范围缩小至几个基因,从而助力于医学科学研究。
随着二代测序技术的収展,测序价格变的越来越低。越来越多的二代测序项目陆续被开展,从而产生了大量的测序数据。然而,测序公司可以提供的多为标准化的流程分析,而标准化分析对于文章发表而言,可能远未足够。多数研究者虽然对研究设计了如指掌,但对于如何对测序数据进行高级分析从而达到研究目的,所知甚少。深圳市拓普生物科技有限公司提供对研究人员自身测序数据或者公共数据库测序数据的高级数据分析服务,距今已有上百个项目的操作经验。
说了这么多,我们可以提供哪些个性化分析呢?
1、 差异分析
2、 GO功能富集
3、KEGG通路富集
4、miRNA-mRNA结合预测
5、转录因子结合位点预测
6、 蛋白质因果关系
7、 STEM时间序列趋势分析
8、WGCNA功能模块分析
9、LncRNA-mRNA共表达
10、蛋白质互作网络(PPI)
11、 ceRNA分析
12、肿瘤SNPs统计分析
13、 生存分析:预后与临床表型、基因表达的关联
14、 Cox多因素模型预测肿瘤预后
15、 肿瘤预后模型的列线图可视化
16、 免疫细胞浸润比例分析
17、疾病相关免疫基因筛选
18、基于机器学习算法的多组学疾病诊断/肿瘤预后预测模型
最后,欢迎各位交流合作,特别是做动物科研的老师,希望我们精准的生信分析能大大减少您实验的工作量。最后祝您多多出Paper,多多中国自然!