收藏本站 | 论文目录

关键词: python matlab plc 单片机 dsp fpga 仿真 stm32

当前位置: 毕业论文设计参考 >> 其它专业论文 >> 软件工程本科论文

基于随机游走的致病基因预测

[关键词:随机游走,致病基因]  [热度 ]
提示:此毕业设计论文完整版包含【论文,源程序,答辩稿
作品编号:rjgc0386,word全文:52页,合计:25000

以下仅为该作品极少介绍,详细内容请点击购买完整版!
基于随机游走的致病基因预测毕业设计论文------

本文借鉴PageRank和随机游走算法的思想,提出新的致病基因预测算法,实现了四种不同的算法并进行对比分析。

基因相互作用网络是一个典型的复杂网络,中心度算法是量化网络结点的有效方法。然而,普通的线性拟合的方法效果并不理想,本文提出利用最大熵模型融合中心度算法,取得了良好的效果。

针对基因相互网络特性,提出重启特征和平滑特征这两个特征函数。然而,文献中并没有提到特征融合的方法。本文对PageRank算法进行改进同时,实现了一种近似随机游走算法,并和改进PageRank算法做了时间消耗和结果对比分析。

本文利用疾病描述和临床表型的文本数据,利用文本挖掘的方法得到了疾病相互作用的网络,同时从OMIM数据库中得到了疾病-基因作用的数据和蛋白质(基因)相互作用的数据,将其中一部分数据用来训练模型,另一部分数据做测试。

通过疾病的相似性数据和疾病-蛋白质的作用数据,将致病基因预测问题转化成了蛋白质相互作用网络中蛋白质结合重要性排序问题。进而通过最大熵中心度算法、经典PageRank算法、改进PageRank算法和随机游走近似算法,来求解蛋白质网络排序问题。

本文的主要贡献在于:第一,对中心度算法的三个特征的融合提出的新的方法;第二,有效结合PageRank算法的两个重要的特征,并且推导出了改进后的PageRank算法的计算公式。这些均为本文的原创内容。

另外,实现了经典PageRank算法,利用疾病描述文本来挖掘疾病相似性网络,实现了随机游走的近似性算法,这些均为参考前人论文的仿真实验,不是本文原创内容。

本文的组织结构安排如下:第二章,介绍了复杂网络的概念,阐述了最大熵中心度算法来求解网络中结点重要性的方法;第三章,先给出了经典PageRank算法和改进PageRank算法的推导过程,同时阐明了随机游走算法的算法过程和利用疾病描述文本得到疾病相似网络的算法;第四章,对实验中用到的数据进行实验,对各种不同算法的实验结构进行了分析和比较;第五章,对致病基因预测算法的发展做了总结和展望。

致病基因的预测是生物信息学关注的重要的热门课题之一。能够准确地预测出致病基因对人类疾病研究具有极其重要的意义。本文从蛋白质相互作用网络的拓扑性出发,结合人类遗传疾病的模块化性质,对尚未发现的致病基因做出预测。

首先,本文第二章提出最大熵模型和中心度算法来给出拓扑网络中的重要性排序,因为实际中很难找到满足模型的大量的训练数据,因此第三章提出了RSPR算法和−𝑎pproximate PageRank算法,然后结合文本挖掘算法构建出疾病和蛋白质的相互关系,再利用本文提出的ComputeInitialVector算法得到初始权值向量,最后得出致病基因的预测。

本文的主要贡献在于,将中心度算法与最大熵模型相结合,来对复杂网络中的结点进行排序;很好的将PageRank算法的重启特征和平滑特征进行结合,推导出RSPR计算公式;同时利用−𝑎pproximate PageRank向量算法取代了经典PageRank算法中大矩阵的迭代相乘运算,在误差不大的情况下,大幅提高了算法效率。

当然,本文提出的模型和算法也有一些不尽人意的方面,主要体现在:(1)在分析蛋白质结点重要性时,应可利用更多的生物标记信息。(2)在融合中心度算法特征时,可以考虑使用深度神经网络训练出新的特征,更加准确。

 

 


以上仅为该作品极少介绍,详细内容请点击购买完整版!

提示:此毕业设计论文完整版包含【论文,源程序,答辩稿
作品编号:rjgc0386,word全文:52页,合计:25000

本软件工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——基于随机游走的致病基因预测(论文,源程序,答辩稿)!