基于随机游走的本体语义相似性改进方法
[关键词:随机游走,本体语义,相似性] [热度 ]提示:此毕业设计论文完整版包含【论文,源程序,答辩稿】 作品编号:rjgc0379,word全文:40页,合计:15000字 |
本文首先介绍了现有的三类基因条目语义相似性度量方法及其优缺点。在已有方法的基础上,加入对条目下层拓扑结构以及不确定性两种因素的考虑,通过随机游走算法将因素量化,实现语义相似性度量计算。本文还将方法的实验结果与已有方法Resnik、Lin、Jiang的方法结果进行比较,进一步证明了这种方法的有效性和优势。
本文的研究内容主要是:详细分析基于基因本体结构的条目语义相似性度量的经典方法,并针对已有方法存在的缺陷,提出一种优化方法。实现优化方法,并计算得出相关结果,进行分析。
本文的创新点在于通过结合随机游走方法将这些因素量化,得到改进的优化方法。优化方法中计算出的随机游走贡献(Random Walk Contribution,RWC)值可以与任意经典语义相似性度量方法(Host Similarity Measure,HSM)结合,得到考虑到完整本体结构的集成语义相似性(Integrated Similarity Measure,ISM)度量值。本文重点展示了在Resnik方法基础上结合随机游走方法所获得的结果,体现出优化方法在考虑下层结构以及不确定性影响后的优势。
章节安排说明
本文中其余章节的安排如下:
第二章介绍本文方法所涉及领域的相关知识背景。首先,介绍了GO的建立以及发展,本体论的相关概念,接着介绍基因本体间的关系以及基因产物的注释,最后说明了GO的应用。
第三章首先介绍了现在主要的经典语义相似性度量方法,并对与本文联系比较紧密的Resnik方法的计算思路进行了详细介绍,分析现有方法的优缺点。然后介绍了随机游走的相关概念,以及随机游走方法的实现思路。
第四章首先介绍了优化方法的主要原理和思路。然后对本文所使用的R语言,GO.db包以及GOSemsim包进行了简要说明。接着对酵母菌基因语义相似性相关数据进行介绍,并描述本文方法的实现要点。最后通过分析比较实验结果,说明优化方法相似性度量的优缺点。
第五章对全文进行总结,描述实验中遇到的问题以及解决方法,也对GO以及语义相似性度量方法的发展进行展望。
本文介绍了一种语义相似性度量方法,在已有经典本体语义相似性度量方法的基础上,考虑到GO条目下层拓扑结构以及不确定性对相似性度量的影响,通过随机游走算法将这两种因素量化,更为全面计算出两个GO条目的语义相似性度量值。
ISM方法也存在可以改进的地方,一是没有考虑条目间的关系“is_a”和“part_of”的影响,在之后的研究中可以进一步优化,将关系影响加入度量;二是基于的HSM都是对GO条目的IC量进行计算,但在实验中发现IC的值存在空或无穷大的情况,因此可以对IC的计算方法进行优化,避免结果的不准确性;三是在ISM值计算时使用的是HSM、RWC等比例求平均的方法,日后可以通过大量实验以及根据不同情况,平衡HSM和RWC两个因素的比例。
提示:此毕业设计论文完整版包含【论文,源程序,答辩稿】 作品编号:rjgc0379,word全文:40页,合计:15000字 |
本软件工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——基于随机游走的本体语义相似性改进方法(论文,源程序,答辩稿)!