本体富集分析方法研究
[关键词:本体,富集] [热度 ]提示:此毕业设计论文完整版包含【论文,源程序,答辩稿】 作品编号:rjgc0377,word全文:55页,合计:20000字 |
本文研究并基于R语言实现了马尔科夫链本体富集分析方法(Markov Chain Ontology Analysis,MCOA)。MCOA以一组基因作为输入数据,首先通过基因及其对应的基因本体(Gene Ontology,GO)条目的关系建立马尔科夫链模型,随后利用贪心算法得出该组基因在GO所富集的条目。MCOA分析的结果包含富集的GO条目及其描述,以及用p-value表示的显著性,便于研究者对结果进行进一步分析。
为了对MCOA进行更深入的分析,文中还将MCOA同超几何分布方法、MGSA、NOA三种富集分析方法所得的结果进行了比较。
研究内容和目标
为了解决当前GO富集分析方法的上述限制,本文引入了马尔科夫链本体富集分析方法[6](Markov Chain Ontology Analysis,MCOA)。MCOA方法基于现有的基因活动生成模型方法首先建模,而后对该模型使用马尔科夫链方法进行分析。MCOA方法将GO条目、GO条目的相关联基因数据集和所有的条目-条目关系、条目-基因关系、基因-基因关系建模为一个有限可遍历的马尔科夫链模型。并针对该模型得到一个转移概率矩阵,通过计算矩阵的左征向量来体现每一个GO的信息排名(Information Rank,IR),它表示并量化了每一个GO对于该模型中其他GO条目和基因数据集的重要性。最后通过对IR的统计分析,找出富集分析结果。
论文各章节安排
第二章首先介绍GO,对GO富集的概念进行了阐述,介绍了富集的最基本原理。然后对现阶段生物医学领域主要的GO富集分析方法进行了简要介绍。
第三章首先给出了MCOA的模型和核心步骤,目的是易于MCOA方法的整体介绍。然后提出了MCOA方法三大步骤,并一一进行详细阐述,这一部分是本文的重点之一。
第四章首先介绍了R语言[7]和Bioconductor[8]项目,简要论述了本文所用的一些R语言常用包。然后论述了实现MCOA方法所进行的数据处理和重要算法。这一部分是本文的另一个重点。
第五章首先描述了其他的一些常见GO富集分析方法。然后分别对这些方法进行了简单的实现。最后对这些方法的结果进行分析与比较。
第六章对全文进行总结并展望下一步的工作。
本文介绍了GO富集分析方法,主要介绍了其中的MCOA方法,并简单介绍了其他三种方法:超几何分布方法、MGSA、NOA。MCOA方法主要在GenGO或者MGSA的基础上再次进行处理,对目标函数的修改和贪心算法查询最优GO结果集合,最后通过超几何分布方法计算最优解中每一个GO的p值并排序输出。虽然MCOA方法在富集分析方法主要的几个问题例如类重叠、实体间相互关系、语义距离、离散数据等有很好的处理和性能体现,但是我们的算法仍旧有一些缺点,例如将基因到基因间的相互作用和关联忽略。
提示:此毕业设计论文完整版包含【论文,源程序,答辩稿】 作品编号:rjgc0377,word全文:55页,合计:20000字 |
本软件工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——本体富集分析方法研究(论文,源程序,答辩稿)!