收藏本站 | 论文目录

关键词: python matlab plc 单片机 dsp fpga 仿真 stm32

当前位置: 毕业论文设计参考 >> 其它专业论文 >> 软件工程本科论文

基于基因本体的语义相似性研究

[关键词:基因本体,语义,相似性]  [热度 ]
提示:此毕业设计论文完整版包含【论文
作品编号:rjgc0381,word全文:44页,合计:17000

以下仅为该作品极少介绍,详细内容请点击购买完整版!
基于基因本体的语义相似性研究毕业设计论文------

本文对现有的四种蛋白质语义相似性度量方法及其优缺点进行了介绍,详细介绍了向量法和术语法。在此基础上,本文实现了两种具有创新性的语义相似性度量方法。其中TCSS算法[4]从子图根节点的信息内容出发,IntelliGO算法[5]是从GO有向无环图中向量余弦相似性出发,在已有的算法的基础上进行了改进,加入了对注释来源的考虑。本文还将这两种算法的实验结果与术语法中Resnik、Lin、Jiang、Wang等人的算法结果进行了比较,进一步证明了这两种算法的有效性。

在现有的语义相似性算法中,大部分都有很明显的缺陷,以及没有考虑进去的因素。例如Resnik方法的缺点在于它忽略了拓扑结构中所包含的信息。 Jiang等人以及Lin的方法存在浅注释的缺点。

在本文中,如何测量蛋白质的相似性是一个关键问题。由于蛋白质的相似性测量涉及很多因素,如蛋白质的结构、蛋白质的成分组成、蛋白质的生物进程等。以前的各种相似性测量方法大多只是考虑了如GO术语所包含的信息内容或者边之间的关系,并没有综合考虑术语编码、GO术语的信息内容以及边之间的关系。因此,本文中的两种语义相似性测量方法正是针对以上相似性测量算法的不足而提出的。

 本文中主要研究,分析并实现了两个基于已有的算法基础上,进行改良的算法。分别为一个基于向量的语义相似性算法(IntelliGO)[5]和基于语义相似性内的GO本体计算蛋白质间的相互作用(TCSS)[4]。其中IntelliGO的创新点在于考虑了标注的来源(evidence code)集成多个特性。GO条目的系数包含其IC和evidence code。TCSS的创新点在于考虑了再不同的GO本体中的深度,把GO图分为多个子图,如果蛋白质属于同一个子图,则评分高。

论文各章节的安排

本文中其余章节的安排如下:

第二章对本文算法所涉及领域的知识背景进行了阐述。首先介绍了基因本体论GO的建立及发展,概要的阐述了本体论,介绍了基因本体间的关系及推导,介绍了基因产物的注释,最后描述了现在主要的几种相似性度量算法,并对与本文联系比较紧密向量法和术语法[19]两大类算法进相似性算法行了详细介绍,分析了这两类相似性度量算法的优缺点。

第三章首先介绍了蛋白质语义相似性的相关概念。然后详细介绍了TCSS算法和IntelliGO算法,讲述了这两种算法的主要原理,这部分是本文的重点内容。

第四章首先对本文使用的R语言、GO.db包及GOSemSim包进行了简要的说明。接着对蛋白质语义相似性相关数据进行了介绍。然后又对两种算法的实现要点进行了描述。最后通过实验结果之间的比较与分析,对几种相似相似性度量算法的优缺点进行了描述。

第五章对全文进行总结,对实验中所遇到的问题及其解决方法进行了描述,对GO及语义相似性的发展进行了展望。

文中介绍了两种蛋白质语义相似性的度量算法,通过将信息内容、图形距离和向量法结合起来计算两个蛋白质的相似性。文中TCSS算法主要是通过将术语深度转换为子图祖先节点的信息内容来进行计算。而IntelliGO算法则是将每一个蛋白质当做一个向量,通过找出图中术语与根节点之间存在的最长路径(即术语的深度)来计算两个蛋白质的相似性。但是这两种算法也有一些缺点,一是两种算法都依赖于两个术语的最近公共祖先,如果不能获取两个术语的最近公共祖先,则无法获取两个术语的相似性;二是并未考虑术语间的关系is-a和part-of。

 

 


以上仅为该作品极少介绍,详细内容请点击购买完整版!

提示:此毕业设计论文完整版包含【论文
作品编号:rjgc0381,word全文:44页,合计:17000

本软件工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——基于基因本体的语义相似性研究(论文)!