基于人类蛋白质互作网络的致病基因预测
[关键词:蛋白质,互作网络,致病基因] [热度 ]提示:此毕业设计论文完整版包含【论文,源程序,答辩稿】 作品编号:rjgc0373,word全文:45页,合计:19000字 |
本文首先研究了经典的基于网络信息流进行致病基因预测的过程,然后在此基础上深入研究并实现了DADA算法。为了解决大规模蛋白质互作网络中的致病基因预测问题,本文研究并实现了基于矩阵分割和低秩矩阵近似的快速随机游走算法,并将其应用到基于网络中节点的拓扑相似性的VAVIEN算法中。最后,本文使用留一交叉验证和ROC曲线对以上算法的性能进行了分析和比较。实验结果表明,本文实现的基于R语言的致病基因预测算法是有效的。
本文的研究内容
1.研究PPI网络相关数据,包括PPI网络数据、在线人类孟德尔遗传(Online Mendelian Inheritance in Man,OMIM)数据库[13]疾病基因关联数据、PPI网络置信分数数据和基因染色体位置数据。
2.设计并实现基于R语言的致病基因预测算法,包括经典的基于信息流的RWR算法和网络传播(Network Propagation,NP)算法[14],改进的基于信息流的DADA算法[15]和结合了快速随机游走(Fast Random Walk with Restart,FRWR)算法[16]的基于网络拓扑特性的VAVIEN算法[17]。
3.结合留一交叉验证和受试者工作特征(Receiver Operating Characteristic,ROC)曲线分析等方法来评估实现的算法的性能。
本文的研究目标
1.研究并整理PPI网络数据,基于R语言设计并实现多种致病基因预测算法,为用户提供快速有效的R语言下的致病基因预测工具。
2.研究并实现FRWR算法,使致病基因预测算法的可扩展性更强,能够处理更大规模的PPI网络数据。
论文章节安排
本文剩余章节的安排如下:
第二章介绍基于PPI网络的致病基因预测的相关算法和背景。
第三章讨论DADA算法和VAVIEN算法及其R语言实现,其中包含RWR算法、NP算法和FRWR算法的设计和实现。
第四章介绍实验设定并分析实验的结果。
第五章总结本文所做的工作和存在的问题,并对进一步的工作进行展望。
本文首先介绍了致病基因预测的相关背景,然后讨论了基于R语言的经典的基于信息流的RWR/NP算法、DADA算法和VAVIEN算法的设计和实现。最后,通过留一交叉验证和AUC等评估方法,本文对上述算法的性能进行了讨论。
作为经典的基于信息流的算法,RWR算法和NP算法能够在很短时间内获得较为准确的候选基因的排名。DADA算法在平均排名方面的性能不如NP算法(相对RWR算法较好),但对于网络中松散连接的基因来说,DADA算法的性能则相对较好。VAVIEN算法利用了网络中节点的拓扑相似性,在使用计算近似随机游走分数的FRWR算法改善了VAVIEN算法的时间复杂度之后,VAVIEN算法将致病基因预测为候选基因的前1%或5%的几率和RWR/NP算法基本相同。本文所有致病基因预测算法对于致病基因的平均排名都在20左右,均可用于致病基因预测。
提示:此毕业设计论文完整版包含【论文,源程序,答辩稿】 作品编号:rjgc0373,word全文:45页,合计:19000字 |
本软件工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——基于人类蛋白质互作网络的致病基因预测(论文,源程序,答辩稿)!