如何利用R语言做GO分析如何利用r语言做go分析方法

R语言可视化之ggplot2——KEGG通路富集分析

之前分享了如何用ggplot2可视化GO分析的结果。既然做了GO，当然少不了KEGG了。

创新互联建站成立与2013年，先为平顺等服务建站，平顺等地企业，进行企业商务咨询服务。为平顺企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。

同样的，我们从 DAVID 获取KEGG pathway的结果。

对于KEGG，我比较喜欢做气泡图，这样用两种形式的图结合在一起，效果更丰富更好看一点。

GO、KEGG富集分析（一）有参情况

对基因的描述一般从三个层面进行：

这三个层面具体是指：

得到GO注释

做GO分析的思路：

比如，在疾病研究的时候，进行药物治疗之后某些基因的表达量明显的发生了变化，拿这些基因去做GO分析发现在Biological process过程当中集中在RNA修饰上，然后在此基础上继续进行挖掘。这个例子就是想启示大家拿到差异表达基因DEG只是一个开始，接下来就应该去做GO注释，之后需要进行一个分析看这些注释主要集中在哪个地方。假如我们有100个差异表达基因其中有99个都集中在细胞核里，那我们通过GO分析就得到了一个显著的分布。

GO富集分析原理：

有一个term注释了100个差异表达基因参与了哪个过程，注释完之后（模式生物都有现成的注释包，不用我们自己注释），计算相对于背景它是否显著集中在某条通路、某一个细胞学定位、某一种生物学功能。

clusterProfiler是一个功能强大的R包，同时支持GO和KEGG的富集分析，而且可视化功能非常的优秀，本章主要介绍利用这个R包来进行Gene Ontology的富集分析。

进行GO分析时，需要考虑的一个基础因素就是基因的GO注释信息从何处获取。Bioconductor上提供了以下19个物种的Org类型的包，包含了这些物种的GO注释信息

对于以上19个物种，只需要安装对应的org包，clusterProfile就会自动从中获取GO注释信息，我们只需要差异基因的列表就可以了，使用起来非常方便。

1.1 准备输入数据

待分析的数据就是一串基因名称了，可以是ensembl id、entrze id或者symbol id等类型都可以。把基因名称以一列的形式排开，放在一个文本文件中（例如命名“gene.txt”）。Excel中查看，就是如下示例这种样式。

1.3 GO富集分析

加载了注释库之后，读取基因列表文件，并使用clusterProfiler的内部函数enrichGO()即可完成GO富集分析。

读取基因列表文件，并使用clusterProfiler的内部函数enrichKEGG()即可完成KEGG富集分析。

此外，clusterProfiler中也额外提供了一系列的可视化方案用于展示本次富集分析结果，具有极大的便利。

参考：

;utm_medium=timeline

【R语言】解决GO富集分析绘图，标签重叠问题

前面我给大家详细介绍过

☞GO简介及GO富集结果解读

☞四种GO富集柱形图、气泡图解读

☞GO富集分析四种风格展示结果—柱形图，气泡图

☞KEGG富集分析—柱形图，气泡图，通路图

☞ DAVID GO和KEGG富集分析及结果可视化

也用视频给大家介绍过

☞ GO和KEGG富集分析视频讲解

最近有粉丝反映说，利用clusterProfiler这个包绘制GO富集分析气泡图和柱形图的时候，发现GO条目的名字都重叠在一起了。

气泡图

柱形图

这个图别说美观了，简直不忍直视。经过我的认真研究，发现跟R版本有关。前面我给大家展示的基本都是R 3.6.3做出来的图。很多粉丝可能用的都是最新版本的R 4.1.2。

我们知道R的版本在不停的更新，相应的R包也在不停的更新。我把绘制气泡图和柱形图相关的函数拿出来认真的研究了一下，终于发现的症结所在。

dotplot这个函数，多了个 label_format 参数

我们来看看这个参数究竟是干什么用的，看看参数说明

label_format :

a numeric value sets wrap length, alternatively a custom function to format axis labels. by default wraps names longer that 30 characters

原来这个参数默认值是30，当标签的长度大于30个字符就会被折叠，用多行来展示。既然问题找到了，我们就来调节一下这个参数，把他设置成100，让我们的标签可以一行展示。

是不是还是原来的配方，还是熟悉的味道

同样的柱形图，我们也能让他恢复原来的容貌。

关于如何使用R做GO和KEGG富集分析，可参考下文

GO和KEGG富集分析视频讲解

R语言：clusterProfiler进行GO富集分析和Gene_ID转换

ID转换用到的是 bitr() 函数，bitr()的使用方法：

org.Hs.eg.db包含有多种gene_name的类型

keytypes() ：keytypes(x)，查看注释包中可以使用的类型

columns() ：类似于keytypes()，针对org.Hs.eg.db两个函数返回值一致

select() ：select(x, keys, columns, keytype, ...) eg.

函数enrichGO()进行GO富集分析，enrichGO()的使用方法：

举例：

[R语言] GO富集分析可视化 GOplot::GOCircle

查看GOplot内示例数据的格式，对自己的数据做处理

观察结论：

观察自己的两个数据表：

table.legend 设置为T时会显示表格

本图中表格和图例是出图后剪切拼合而成，没有用R中的拼图包

如何从众多go生物学分析中选取出需要的生物过程

1 如果肯下功夫，可以通过R语言获得基因本体论以及通路富集数据并将其可视化，所用的R包可以是GOSim（GO分析），或者clusterprofiler(GOKEGG)

2 cytoscape 的插件cluego可以傻瓜式实现通路的图片展示，可以用来直接发文章（低分的至少可以）

3 关于GO和KEGG数据的获得，上DAVID就好

本文标题：如何利用R语言做GO分析如何利用r语言做go分析方法
当前网址：http://ybzwz.com/article/dooedep.html

如何利用R语言做GO分析 如何利用r语言做go分析方法