r语言go有向无环图 go分析r语言作图

有谁知道能解释一下有向无环图(DAG)么？怎么用程序做出来，及怎么应用到经济学实证上？

我们说区块链目前还不成熟，有各种各样的问题，比如说处理速度慢、手续费高昂、存在安全隐患等等，这些都是用户最直观的体验，体验不是太好。区块链还有一个问题，那就是高并发问题。

我们提供的服务有：网站建设、网站设计、微信公众号开发、网站优化、网站认证、郁南ssl等。为1000多家企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务，是有科学管理、有技术的郁南网站制作公司

高并发问题是怎么回事呢，我们简单说一下。高并发是计算机领域的问题，简单来讲，高并发问题就是系统无法顺利同时运行多个任务。

很多任务同时运行，一大堆用户涌进来，系统承受不住这么多的任务，会出现高并发问题，你的系统就卡住了，就好比春运时候，12306系统总是卡住，有可能就是高并发问题造成的。

传统互联网尚且存在高并发问题，区块链网络自然也存在这个问题，毕竟区块链的成熟程度比起传统互联网，还有很大的差距。但是，如果没有安全、可靠和高效的公链，整个区块链产业的发展都将受到严重制约，应用落地也是空谈。

在这种背景下，DAG 技术就被提出来了，DAG 的全称是“Directed Acyclic Graph”，中文翻译为“有向无环图”。

DAG有向无环图是怎么回事呢，它到底能起到什么作用呢？我们下面解释一下。

一、DAG：一个新型的数据结构

DAG，中文名字叫“有向无环图”，从字面意思看，“有向"就是说它是有方向的，

“无环”就是说它是没有环路的、不能形成闭环的。所以，DAG其实是一种新型的数据结构，这个数据结构是有方向的，同时又是不能形成闭环的。

传统区块来讲，我们总是以“区块”为单位，一个区块里往往包含了多笔交易信息。而在DAG中，没有区块的概念，而是以“单元”为单位，每个单元记录的是单个用户的交易，组成的单元不是区块，而是一笔笔的交易，这样一来，可以省去打包出块的时间。

简单来说，区块链和DAG有向无环图最大的区别就是：区块链是一个接一个的区块来存储和验证交易的分布式账本，而DAG则是把每笔交易都看成一个区块，每一笔交易都可以链接到多个先前的交易来进行验证。

二、DAG 的工作原理

传统区块链上，就拿比特币来讲，它是单链式的结构，区块与区块之间按照时间戳的先后顺序排列开来（如图一），数据记录在一条主链上。用不太恰当的比喻来讲，这个

“单链式”结构是一条一字排列的链。

区块链只有一条单链，打包出块就无法并发执行。新的区块会加入到原先的最长链之上，所有节点都以最长链为准，继续按照时间戳的顺序无限蔓延下去。而对于DAG来讲，每个新加入的单元，不仅只加入到最长链的一个单元，还要加入到之前所有的单元（如图二）。

举个例子：假设我发布了一个新的交易，此时DAG结构已经有2个有效的交易单元，那么我的交易单元会主动同时链接到前面的2个之中，去验证并确认，直到链接到创世单元，而且，上一个单元的哈希会包含到自己的单元里面。

换句话说，你要想进行一笔交易，就必须要验证前面的交易，具体验证几个交易，根据不同的规则来进行。这种验证手段，使得DAG可以异步并发的写入很多交易，并最终构成一种拓扑的树状结构，极大地提高扩展性。

依据DAG有向无环图，每一笔交易都直接参与了维护全网。当交易发起后，直接广播全网，跳过矿工打包区块阶段，这样就省去了打包交易出块的时间，提升了区块链处理交易的效率。

随着时间递增，所有交易的区块链相互连接，形成图状结构，如果要更改数据，那就不仅仅是几个区块的问题了，而是整个区块图的数据更改。DAG这个模式相比来说，要进行的复杂度更高，更难以被更改。

总结一下，DAG作为一种新型的去中心化数据结构，它属于广义区块链的一种，具备去中心化的属性，但是二者的不同之处在于：

区块链组成单元是Block（区块），DAG组成单元是TX（交易）。

区块链是单线程，DAG是多线程。

区块链所有交易记录记在同一个区块中，DAG每笔交易单独记录在每笔交易中。

区块链需要矿工，DAG不需要矿工。

三、 DAG 的代表：IOTA

DAG当前的代表项目，最知名的无疑就是 IOTA。可以说，正是因为IOTA这个币种在 2017年下半年冲进市值排行第四位，才使人们真正认识到了它的底层技术：DAG有向无环图。

IOTA在DAG有向无环图的基础上提出了“缠结”概念，在IOTA里面，没有区块的概念，共识的最小单位是交易。每一个交易都会引用过去的两条交易记录哈希，这样前一交易会证明过去两条交易的合法性，间接证明之前所有交易的合法性。这样一来，就不再需要传统区块链中的矿工这样少量节点来验证交易、打包区块，从而提升效率，节省交易费用。

四、 DAG 的现状

尽管理论上来讲，DAG有向无环图能够弥补传统区块链的一些弊端，但是目前并不成熟，应用到数字货币领域的时间也比较短，还比较年轻。

它没有像比特币那般经过长达10年的时间来验证整个系统的安全性，也没有像以太坊那般实现了广泛的应用场景。不过，现在有些声音提出要采用“传统区块链+DAG”的数据结构，但是还没有非常突出的案例，这里就不多说了。

总结一下，本节我们介绍了区块链的衍生技术：DAG有向无环图，这是一种全新的数据结构，可以对区块链处理交易的效率、并发力达到显著的提升。

什么是有向无环图

有向无环图指的是一个无回路的有向图。如果有一个非有向无环图，且A点出发向B经C可回到A，形成一个环。将从C到A的边方向改为从A到C，则变成有向无环图。有向无环图的生成树个数等于入度非零的节点的入度积。

如果一个有向图无法从某个顶点出发经过若干条边回到该点，则这个图是一个有向无环图（DAG图）。

因为有向图中一个点经过两种路线到达另一个点未必形成环，因此有向无环图未必能转化成树，但任何有向树均为有向无环图。

扩展资料

检查一个有向图是否存在环要比无向图复杂。对于无向图来说，若深度优先遍历过程中遇到回边，则必定存在环；而对于有向图来说，这条回边有可能是指向深度优先生成森林中另一棵生成树上顶点的弧。

有向无环图是描述一项工程或系统的进行过程的有效工具。

除最简单的情况之外，几乎所有的工程都可分为若干个称作活动的子工程，而这些子工程之间，通常受着一定条件的约束，如其中某些子工程的开始必须在另一些子工程完成之后。

参考资料来源：百度百科-有向无环图

GO(Gene Ontology)

Ontology 首先是出现于哲学领域的一个词汇，后来广泛用于计算机领域，发挥了很重要的作用，再后来这个概念被引入生物领域。

gene Ontology 是生物中Ontology中一个重要应用。go项目最初是由研究三种模式生物（果蝇、小鼠和酵母）基因组的研究者共同发起。是生物信息分析中很重要的一个方法

go是在生物领域应用非常广，可以帮助生物学家对基因产物进行准确的定义（功能、位置），节省时间。

因为在最开始的时候，生物学家们更多是专注于自己研究的物种/课题，而且每个生物学家对功能等的定义是存在差异的，导致不同实验室/物种不能实现直接的对接（比如A物种内的x基因的功能使用的是a这个词汇进行注释，而B物种内的x基因的功能却使用的是与a同义的词汇b进行注释，这种情况计算机无法识别），就像讲两种语言的人，无法直接进行语言交流。这种情况导致的问题是，出现了一种阻碍，让问题复杂化了。所以就有了Ontology在生物领域中的应用，实现“书同文”。

go定义了基因/基因产物的功能（通过术语）且定义了它们各自之间功能是怎样联系的（关系）。它组成了一个具有大量term的词汇库，并定义各种term之间的关系（is_a part_of R）。

GO通过三个方面的术语对基因/基因产物的功能进行描述：分子功能(molecular function) -由基因/基因产物行使的分子水平上的功能；细胞组件(cellular component)-基因/基因产物产生功能时其在细胞结构上的位置；生物学过程(biological process)-在哪个生物学通路/生物过程发挥作用。

目前，GO 注释主要有两种方法：

（1）序列相似性比对（BLAST）：例如blast2go（将blast结果转化为GO注释）

（2）结构域相似性比对（InterProScan）

blast2go的本地化教程：

在blast2go软件正确安装的情况下，使用blast2go进行go注释，出现无法得到注释结果的问题：

另外还有可能出错的原因是，blast2go无法识别blast高的版本号，当使用高版本的blast的时候，直接将版本号给修改为低版本的就行了，例如（BLASTX 2.2.25+）

GO 的图形是一个有向无环图

GO数据库介绍（转载）

类似于语义网络。是为了生物界有一个统一的数据交流语言。因为在生物学界，存在在种种同名异义、异议同名的现象。为此产生了GO项目。

GO是用一套统一的词汇表来描述生物学中的分子功能、生物过程和细胞成分。其思想大概过程：对于一个基因产品（蛋白质或RNA），用某些词汇来描述它是干什么的或位于细胞哪里、或者参与了哪个生物过程，而这些词汇就是来自GO的Term。

（1）提供生物学功能（术语）的逻辑结构及其相互之间的关系，表现为有向无环图

（2）给特定的基因产物（蛋白质，非编码RNA或大分子复合体，简称为'基因'）起一个特定的名字（唯一标识该基因）

Gene Ontology（GO）中最基本的概念是term。GO里面的每一个entry都有一个唯一的数字标记，形如GO:nnnnnnn，还有一个term名，比如"cell", "fibroblast growth factor receptor binding"，或者"signal transduction"。每个term都属于一个ontology，总共有三个ontology，它们分别是

细胞成分：细胞的部分或其细胞外环境;

分子功能：基因产物在分子水平上的元素活性，例如结合或催化;

生物过程：具有确定开始和结束的分子事件的操作或集合，与综合生活单元的功能有关

理由一：

在基因表达谱分析中，GO常用于提供基因功能分类标签和基因功能研究的背景知识。利用GO的知识体系和结构特点，旨在发掘与基因差异表达现象关联的单个特征基因功能类或多个特征功能类的组合。

根据GO的知识体系，使用“功能类”（或者叫做“功能模块”）这一概念具有以下优点：我们认为，单个基因的表达情况的改变不足以反映特定功能/通路的整体变化情况。因为类似人类社会的组织结构，生物体的功能的实现决不仅仅是依靠一两个基因功能的改变来实现的。因此过分着重单个基因表达变化，将会在后期结果处理中严重干扰对于结果的合理分析，导致偏倚性加大，而且是无法避免的。因此利用GO的结构体系，把参与同样功能/通路的基因进行“功能类”层面的抽象和整合，提供比基因更高一层次的抽象结论，对理解疾病的发病机制或药物的作用机理等更有帮助。

但是该方法也存在一定的不足，由于生物体内部的调控网络可能具有“scale-free network”的特点，个别功能重要的基因（主效基因）具有“Hub节点”的重要特性，它的功能改变可能对于整个网络来说是至关重要的，在这点上，这些重要的基因又具有一定的“自私独裁”特点。而“功能类”之观点模糊了这种差别特性，过于强调“共性”，而忽视了“个性”，这也是“功能类”的一个不足之处，这就需要结合相关的生物学知识才能够实现

理由二：

GO（gene ontology）对大家而言也许会是一个相对陌生的名词，但是它已经成为生物信息领域中一个极为重要的方法和工具，并正在逐步改变着我们对 biological data的组织和理解方式，它的存在已经大大加快了我们对所拥有的生物数据的整合和利用，我们应该逐步学会理解和掌握这种思想和工具。

众所周知，sequence based biology中的核心内容即是对序列的Annotation（注释），其中主要包含structural annotation和functional annotation，前者涉及分析sequence在genome中的locus以及exon，intron，promoter等的location，而后者则是推断序列编码产物的功能

随着多种生物genome的相继解码，同时大量ESTs以及gene expression profile date的积累，使得annotation的工作量和复杂度大大增加。然而另一方面，大多数基因在不同真核生物中拥有共同的主要生物功能，通过在某些物种中获得的基因或者蛋白质（shared protein）的生物学信息，可以用以解释其他物种中对应的基因或蛋白（especially in comparative genomics）。由于这些繁复的功能信息主要是包含在积累的文献之中，如何有效的提取和综合这些信息就是我们面临的核心困难，这也是GO所要着力解决的问题。通过建立一套具有动态形式的控制字集（controlled vocabulary），来解释真核基因及蛋白在细胞内所扮演的角色，并随着生命科学研究的进步，不断积累和更新。一个ontology会被一个控制字集来描述并给予一定的名称，通过制定“本体”ontologies并运用统计学方法及自然语言处理技术，可以实现知识管理的专家系统控制

总结：

Gene Ontology（GO）包含了基因参与的生物过程，所处的细胞位置，发挥的分子功能三方面功能信息，并将概念粗细不同的功能概念组织成DAG（有向无环图）的结构。

Gene Ontology是一个使用有控制的词汇表和严格定义的概念关系，以有向无环图的形式统一表示各物种的基因功能分类体系，从而较全面地概括了基因的功能信息，纠正了传统功能分类体系中常见的维度混淆问题。

原文：

一文极速读懂 Gene Ontology （GO）数据库

官方：基因本体（GO）知识库是有关基因功能的全球最大信息来源。这些知识既是人类可读的，也是机器可读的，并且是生物医学研究中大规模分子生物学和遗传学实验的计算分析的基础。

在读懂基因本体论（Gene Ontology）前，我们先看看什么是本体论：

本体论（Ontology ）是探究世界的本原或基质的哲学理论。

本体论通常处理的问题：存在哪些本质，如何将这些本质分组，在层次结构内关联以及如何根据相似性和差异进行细分。

基因本体论（Gene Ontology）包含生物学领域知识体系本质的表示形式，本体通常由一组类（或术语或概念）组成，它们之间具有关系。基因本体论（GO）从三个方面（GO domains）描述了我们对生物学领域的了解：

理解了上述的概念，现在举个例子，如果站在基因本体论GO的角度来解释一个基因的话：

基因产物：细胞色素C（cytochrome c）

分子功能：氧化还原酶活性

细胞组分：线粒体基质

生物过程：氧化磷酸化

自定义同义词类型也用于本体中。例如，许多同义词被指定为系统同义词。此类型的同义词是术语名称的确切同义词。

GO以图的形式构建，术语作为同种的节点，术语间的关系（对象属性）作为连接。

GO图中的节点与其他节点可以具有任意数量和类型的关系，就像层次结构，例如，家谱或一个物种的分类法

一个节点可能与多个子节点（更特定的节点）具有连接，也可以具有多个父节点（较宽的节点）

利用关系与关系间的连接可以推断相应的分组注释，节点间关系的推断，这个会在后面详细研究：

上图表示：A is a B，B is part of C，所以可以推断 A is part of C

节点间总体与部分关系：

一个节点可能与一个节点有一部分关系。下图说明了这一点：

上图： mitochondrion 是两个节点的父节点：it is an organelle and it is part of the cytoplasm ； organelle 有两个子节点: mitochondrion is an organelle, and organelle membrane is part of organelle

我们将上面的关系图简化表示为箭头导向性图，这是图中常见的关系表示：

接下我们详细看看GO是怎样来描述这几种关系的：

如果我们说 A is a B ，则意味着节点A是节点B的子类型。例如，有丝分裂细胞周期是细胞周期，或者裂解酶活性是催化活性。

应该注意的是，a并不代表是实例。从本体论上来说，一个实例是某个事物的具体示例。例如猫是哺乳动物，但加菲猫是猫的实例，而不是猫的亚型。 GO中的术语表示实体或现象的类别，而不是特定的表现形式（或实例）。但是，如果我们知道猫是哺乳动物，则可以说猫的每个实例都是哺乳动物。

使用 is a 对批注进行分组是安全的。例如，如果将基因产物X注释为具有酪氨酸激酶活性，并且本体论证明酪氨酸激酶活性是激酶活性的一种（类型），那么我们可以安全地得出结论，基因产物X具有激酶活性。

利用上面得到结论，我们可以将 is a 关系和其他关系类型结合来推断，下图表示了可以推断的关系：

关系的一部分用于表示整个部分的关系。 part of 只有当B一定是A的一部分时，才会在A和B之间部分关系：无论B存在于何处，它都是A的一部分，B的存在意味着A的存在。但是，考虑到A的出现，我们不能肯定地说B的存在。

使用的 part of 进行分组注释是安全的。例如，如果将基因产物X标注为位于线粒体内膜上，而本体论记录了线粒体内膜与线粒体之间的关系的一部分，则可以安全地得出结论X位于线粒体内。

利用上面得到结论，我们可以将 part of 关系和其他关系类型结合来推断，下图表示了可以推断的关系：

has part 是对关系部分的逻辑补充，它从父级的角度代表了“部分-整体”关系。

与 part of 一样，GO关系 has part 仅在A始终将B作为一部分的情况下使用，即A必定具有B的部分。但是，如果B存在，我们不能肯定地说A存在。即所有A都有B部分，但是A只是B的一部分。

使用 has part 注释进行分组是不正确的。例如，我们可以在本体论中断言受体酪氨酸激酶活性具有部分激酶活性。然而，将所有注释归类到受体酪氨酸激酶活性下的激酶活性将是不正确的。

利用上面得到结论，我们可以将 has part 关系和其他关系类型结合来推断，下图表示了可以推断的关系：

一种过程直接影响另一种过程或质量的表现，即前者调节后者。调节的目标可以是另一种过程，例如调节途径或酶促反应，或者可以是质量，例如细胞大小或pH。与 part of 关系类似，该关系专门用于表示必定的调节：如果同时存在A和B，则B总是调节A，但是A可能不总是受B调节，即所有B都调节A; 一些A受B调节。

如果将基因产物X注释为参与调节糖酵解的过程，则不能得出结论X参与糖酵解是不正确的。但是，某些工具使用调节关系来对批注进行分组, 这可用于基因集富集, 所得的基因集包括与分组术语有因果关系的过程中涉及的基因。

利用上面得到结论，我们可以将 regulates 关系和其他关系类型结合来推断，下图表示了可以推断的关系：

GO的结构可以用下图来表示，这个图也叫有向无环图（Directed Acyclic Graph ，DAG）。

如上图所示，三个GO域（细胞成分，生物学过程和分子功能）分别由一个单独的根本体术语表示。

一个域中的所有术语都可以将其父源追溯到一个根术语，通过到本体根的中间术语可能存在许多不同的路径。

这三个根节点是不相关的，并且没有公共的父节点，这意味着来自不同本体的术语之间没有任何关系。但是，GO本体之间也存在其他关系，例如，分子功能术语“细胞周期蛋白依赖性蛋白激酶活性”是生物过程“细胞周期”的一部分。GO本体间相关。

某些基于图的软件可能需要一个根节点。在这种情况下，可以将“假”术语添加为三个现有根节点的代。

GO只代表生物学的当前认知，因此随着生物学知识的积累，它会不断地被修订和扩展。也就是说目前的GO术语不一定代表某个基因产物所有的功能，组分或参加的过程，只是现阶段对它的认知。

每周更新一次，由GOC本体团队与请求更新的科学家共同完成的。

分享文章：r语言go有向无环图 go分析r语言作图
本文路径：http://ybzwz.com/article/docooep.html