http://www.web008.net

R语言教程之R的CGDSR包获取TCGA数据,肿瘤生物信息学相关数据库

把拷贝数及点突变信息结合画热图

下面的函数,主要是配色比较复杂,其实原理很简单,就是一个热图。

library(ComplexHeatmap)

 

代码不好排版,如下:

图片 1

 

出图如下:

图片 2

 

代写CS&Finance|建模|代码|系统|报告|考试

编程类:C++,JAVA ,数据库,WEB,Linux,Nodejs,JSP,Html,Prolog,Python,Haskell,hadoop算法,系统 机器学习

金融类:统计,计量,风险投资,金融工程,R语言,Python语言,Matlab,建立模型,数据分析,数据处理

服务类:Lab/Assignment/Project/Course/Qzui/Midterm/Final/Exam/Test帮助代写代考辅导

天才写手,代写CS,代写finance,代写statistics,考试助攻

E-mail:850190831@qq.com   微信:BadGeniuscs  工作时间:无休息工作日-早上8点到凌晨3点

 


如果您用的手机请先保存二维码到手机里面,识别图中二维码。如果用电脑,直接掏出手机果断扫描。

图片 3

以下数据库按照综合性肿瘤数据库肿瘤基因组数据库肿瘤转录组数据库进行分类:综合性肿瘤数据库TCGA( )即是综合性肿瘤数据库,关注与癌症的发生和发展相关的分子突变图谱。肿瘤基因组数据库COSMIC网址: Cancer Genomics Browser网址: Cancer Genomics Browser是一个整合、可视化、分析癌症基因组学和临床数据的网络分析工具。该平台目前共有355个数据集,包括了来自71870例样本的全基因组数据。用户可以通过它浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,如已知基因、预测基因、表达序列标签、mRNA、CpG岛,克隆组装间隙和重叠、染色体带型、小鼠同源性等。ArrayMap网址: 图谱。arrayMap数据库为高分辨率致癌基因组CNA数据的meta分析和系统级数据集成提供了切入点。用户可通过关键字搜索自己感兴趣的样本或者搜索特定文献中的样本,并在此基础上分析感兴趣的基因或基因组片段上的CNA 。用户还可以选择两个样本来比较二者的CNA 的差异。Cancer Hotspots网址: Hotspots数据库由Memorial Sloan Kettering癌症中心的Kravis分子肿瘤学中心维护,提供大规模癌症基因组学数据中发现的在统计学上有显著复发突变的信息。目前,Cancer Hotspots里面包含有24592个肿瘤样品中鉴定的单残基和框内indel突变热点。用户还可按照gene、residue、type、variants等对其内容进行排列查看。OncoKB网址: Sloan Kettering癌症中心维护的全面的精准肿瘤学知识库,包含来自FDA,NCCN或ASCO,ClinicalTrials.gov和科学文献的专业指导方针和建议,治疗策略,肿瘤专家或肿瘤协会共识,参考文献等信息。OncoKB目前包含有关554种癌症基因特定改变的详细信息,还有1级、2级的治疗信息,3级临床证据和生物学证据。肿瘤转录组数据库ArrayExpress网址: 已经收集了来自715 个数据集的86 733 个样本的基因表达数据,可用于分析基因表达差异、预测共表达基因等,并可根据肿瘤分期、分级、组织类型等临床信息进行分类。CRN网址: Cancer Genome Atlas , Sequence Read Archive 和 NCBI Gene Expression Omnibus 合计89个肿瘤数据集12,167个样品的转录组数据,并且每个肿瘤样品都有对应表型信息(如TNM分型、grade高低、分子分型等),以便于大家针对同一肿瘤不同分型之间进行比较。网站主要包括了三个模块:不同分组差异表达比较、共表达调控网络分析、候选基因表达量查询。UALCAN网址:

查看任意数据集的数据形式

## 而后获取可以下载哪几种数据,一般是mutation,CNV和表达量数据all_dataset <- getGeneticProfiles(mycgds, stad2014)
DT::datatable(all_dataset,
                  extensions = 'FixedColumns',
                  options = list(                    #dom = 't',
                    scrollX = TRUE,
                    fixedColumns = TRUE
                  ))

一般来说,TCGA的一个项目数据就几种,如下:

图片 4

查看任意数据集的样本列表方式

上表的cancer_study_id其实就是数据集的名字,我们任意选择一个数据集,比如stad_tcga_pub ,可以查看它里面有多少种样本列表方式。

stad2014 <- "stad_tcga_pub"

## 获取在stad2014数据集中有哪些表格(每个表格都是一个样本列表)

all_tables <- getCaseLists(mycgds, stad2014)
dim(all_tables) ## 共11种样本列表方式

## [1] 11  5

DT::datatable(all_tables[,1:3])

图片 5

 

选定数据形式及样本列表后获取感兴趣基因的信息

my_dataset <- 'stad_tcga_pub_rna_seq_v2_mrna'

my_table <- "stad_tcga_pub_rna_seq_v2_mrna" 

BRCA1 <- getProfileData(mycgds, "BRCA1", my_dataset, my_table)
dim(BRCA1)

## [1] 265   1

DT::datatable(BRCA1)

样本个数差异很大,不同癌症热度不一样。

 

综合性获取

只需要根据癌症列表选择自己感兴趣的研究数据集即可,然后选择好感兴趣的数据形式及对应的样本量。就可以获取对应的信息:

library(cgdsr)

library(DT)
 mycgds <- CGDS("http://www.cbioportal.org/public-portal/")
 ##  mycancerstudy = getCancerStudies(mycgds)[25,1]

mycancerstudy = 'brca_tcga' 

 getCaseLists(mycgds,mycancerstudy)[,1]

##  [1] "brca_tcga_3way_complete"          "brca_tcga_all"                   
##  [3] "brca_tcga_protein_quantification" "brca_tcga_sequenced"             
##  [5] "brca_tcga_cna"                    "brca_tcga_methylation_hm27"      
##  [7] "brca_tcga_methylation_hm450"      "brca_tcga_mrna"                  
##  [9] "brca_tcga_rna_seq_v2_mrna"        "brca_tcga_rppa"                  
## [11] "brca_tcga_cnaseq"

getGeneticProfiles(mycgds,mycancerstudy)[,1]

##  [1] "brca_tcga_rppa"                          
##  [2] "brca_tcga_rppa_Zscores"                  
##  [3] "brca_tcga_protein_quantification"        
##  [4] "brca_tcga_protein_quantification_zscores"
##  [5] "brca_tcga_gistic"                        
##  [6] "brca_tcga_mrna"                          
##  [7] "brca_tcga_mrna_median_Zscores"           
##  [8] "brca_tcga_rna_seq_v2_mrna"               
##  [9] "brca_tcga_rna_seq_v2_mrna_median_Zscores"
## [10] "brca_tcga_linear_CNA"                    
## [11] "brca_tcga_methylation_hm450"             
## [12] "brca_tcga_mutations"

mycaselist ='brca_tcga_rna_seq_v2_mrna'  

mygeneticprofile = 'brca_tcga_rna_seq_v2_mrna'  

# Get data slices for a specified list of genes, genetic profile and case liste

xpr=getProfileData(mycgds,c('BRCA1','BRCA2'),mygeneticprofile,mycaselist)

DT::datatable(expr)

 

是不是很简单就得到了指定基因在指定癌症的表达量哦

 

# Get clinical data for the case listmyclinicaldata = getClinicalData(mycgds,mycaselist)
DT::datatable(myclinicaldata,
                  extensions = 'FixedColumns',
                  options = list(                    #dom = 't',
                    scrollX = TRUE,
                    fixedColumns = TRUE
                  ))

## Warning in instance$preRenderHook(instance): It seems your data is too
## big for client-side DataTables. You may consider server-side processing:
## http://rstudio.github.io/DT/server.html

 

郑重声明:本文版权归美高梅163888所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。