基于聚合信息量的本体语义相似性度量
[关键词:聚合信息量,本体语义,相似性] [热度 ]提示:此毕业设计论文完整版包含【论文,源程序,答辩稿】 作品编号:rjgc0369,word全文:49页,合计:19000字 |
本文对现有的语义相似性度量方法及优缺点进行了介绍,详细介绍了基于术语的方法。本文提出一种新的和有效的方法来测量GO条目的语义相似度。此方法提出了已存在的GO条目相似度测量方法的限制,通过使用一个GO条目的所有祖先条目的信息量来的决定GO条目的语义内容。一个GO条目的所有祖先条目的聚合信息量含蓄反映GO条目在GO图中的位置,并表现人类怎样使用这个GO条目和它的所有祖先条目来注释蛋白质。
最后,本文介绍了通过本文的方法获得GO条目的语义相似性跟人类感知非常匹配。大量的实验研究显示本文方法和现存方法相比较效果有所提高。
在本文中,如何测量蛋白质的相似性是一个关键问题。由于蛋白质的相似性测量涉及很多因素,如蛋白质的结构、蛋白质的成分组成、蛋白质的生物进程等。以前的各种相似性测量方法大多只是考虑了如GO术语的最低公共祖先的IC或者边之间的关系,并没有综合考虑GO术语自身及所有祖先的IC。因此,本文中的聚合信息量的本体语义相似性测量方法正是针对以上相似性测量算法的不足而提出的。
为了测量蛋白质之间的相似性,本文实现了考虑所有祖先结点的IC的聚合信息量(Aggregate Information Content,AIC)算法和考虑了所有祖先语义影响(Semantic Influences, SI)算法,并且和现在最常用的语义相似相似性算法中的术语法做了比较与分析。
论文各章节的安排
本文剩余章节的安排如下:
第二章是对文中所涉及核心技术方法的概述。首先描述了GO的背景知识,介绍了GO的结构、GO注释的生物学意义、GO的应用。然后介绍了语义相似性度量的概念。最后描述了目前主要使用的几种相似性度量算法,主要分析了基于术语的四种方法的相似性度量算法的优缺点。
第三章首先介绍了蛋白质功能相似性的相关概念。然后详细介绍了AIC算法和SI算法,讲述了这两种算法的主要原理,这部分是本文的重点内容。
第四章首先对本文使用的R语言及相关GO.db包、GOSemSim包和GOSim进行了简要的说明。接着对蛋白质语义相似性相关数据进行了介绍。然后又对两种算法的实现要点进行了描述。最后通过实验结果之间的比较与分析,以及用ROC评估AIC方法。
第五章对全文进行总结,得出了研究结论,论述了研究实验中的不足并展望下一步的工作。
文中介绍了两种蛋白质语义相似性的度量算法,将两个条目的所有祖先及条目本身信息量聚合计算两个蛋白质的相似性。本文提出的一种新颖的聚合信息量(AIC)方法来准确地和有效地测量GO条目的语义相似性;而提出的语义影响(SI)方法是跟AIC方法作比较,进一步证明AIC方法的优势。AIC方法聚合一个特殊的GO条目的所有祖先条目的信息量,当计算GO条目的信息量的时候隐含的考虑它的子孙条目的语义贡献。因此,这种方法确保在语义相似度措施中有完整的语义信息。我们分析和验证结果显示提出的AIC方法比已经发展的方法有很多的优势。AIC方法有以下特性:通过考虑结构的不同,AIC显示了超越方法A的优势,正如3.2.1节所陈述;AIC不会遭受像方法Lin和方法Jiang“浅注释”。注意,当条目注释在上层,式(3-13)的分母会更小;即分子上的相等差异会导致更大的语义相似度值的差异。因此,两个在上层的条目的语义相似度值比有相同图距在低层的两个条目的语义相似度值小。这是符合人类感知的。总之,提出的AIC方法是非常有前景的,它胜过存在的先进的方法。
提示:此毕业设计论文完整版包含【论文,源程序,答辩稿】 作品编号:rjgc0369,word全文:49页,合计:19000字 |
本软件工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——基于聚合信息量的本体语义相似性度量(论文,源程序,答辩稿)!