基于机器学习方法的致病基因位点选择分析
[关键词:机器学习方法,致病基因,位点选择] [热度 ]提示:此毕业设计论文完整版包含【任务书,论文】 作品编号:jskx0243,word全文:26页,合计:13000字 |
毕设基于模拟退火和 mRMR 的两阶段特征选择方法,分析了精神分裂症与单核苷酸多态性之间的关系,特别是通过对样本数据的挖 掘,找出了与该基因型疾病相关的 SNPs 位点,同时根据 genecards 和 NCBI 对特征子集内的位点查找了对应的基因和作用。所研究的诊断方法在预知疾病等方面具有很强的实际意义和应用价值。该生在毕设任务完成过程中,踏实认真,积极思考,较完满地完成了所布置的任务。论文分析清楚,文字表述准确,实验完整,图表正确,外文翻译完成较好......
本选题尝试利用脑科学临床影像 协会(MCIC)提供的 SNPs 数据库,基于机器学习算法,从基因疾病与单核苷酸多态性之间的关系入手,通过对样本数据的挖掘,探索出致病基因位点子集,得到与疾病 相关联的位点在基因中的位置,以便于研究人员的进一步分析。
第一章节主要介绍了本选题的研究背景,并给出了精神分裂症的三种可能的发病 机理作为生物背景。同时介绍了特征选择的一般过程,并对常用的过滤式选择、包裹 式选择、嵌入式选择方法做了简单说明。
第二章首先介绍了模拟退火算法、K-Means 聚类等相关方法的基本理论和算法过程。基于算法原理以及特征选择的一般过程,结合使用轮廓系数作为评价函数,给出 了基于模拟退火算法的特征选择方法。
在第三章,介绍了互信息的定义和计算方法,基于保证能够选出表现能力好的特 征的同时减少特征之间的冗余性的思想,给出了基于互信息的 mRMR 特征选择方法。
第四章结合上述两种特征选择方法,对数据集使用基于模拟退火和 mRMR 的两阶段特征选择方法。第一阶段使用基于模拟退火的特征选择方法,得到 3000 个特征,利用SVM 分类器得到正确分类率为 91.57%。利用这 3000 个特征,在第二阶段使用基于互信息的 mRMR 特征选择方法,并使用 10 折交叉验证和SVM 分类器,将特征子集的数量降到了 1000 个以下。并且利用特征子集在测试集上做了测试,正确分类率能达到
80%以上,同时根据genecards 和NCBI 对特征子集内的位点查找了对应的基因和作用, 其中第 8961、8976、2111、7969、4842、4761 等基因位点对于精神分裂症有直接的影响关系,这也说明实验得到的特征子集有一定的生物医学依据。此外,本文还对比了 单纯使用其中一种方法的分类效果,可以看到两阶段方法的优越性。
在结论与展望部分,分析了两阶段法的优势所在,这种方法对于小样本、高维度 的数据十分适用,同时可以和多种分类器结合使用,灵活便捷。
实验方法对比
本文采用的是基于模拟退火和 mRMR 的两阶段特征选择方法,与其中单纯使用任一方法相比,具有非常好的优越性。如图 4 所示,当目标特征子集内特征数量同为 200 个时,两阶段法的 SVM 分类器的正确分类率为 92.16%,此时单纯使用基于 mRMR 的特征选择方法得到的 SVM 分类器的正确分类率低于 60%,远低于两阶段法的分类效果,而单纯使用模拟退火搜索方法得到的 SVM 分类器的分类效果也较差,仅为 67.47%。......
本文所采用的基于模拟退火算法和 mRMR 方法的两阶段特征选择方法,是一种混合式的特征选择方法,其中第一阶段采用的基于模拟退火方法的特征选择是一种包裹式 特征选择,而在第二阶段采用的基于 mRMR 准则的特征选择是一种过滤式混合方法。这种新式的混合式特征选择的优势在于:
1)充分利用样本信息
第一阶段所使用的方法是一种无监督的特征选择方法,不需要使用标签信息,而 第二阶段所使用的方法是一种有监督的特征选择方法,需要使用标签信息。当数据为 有标签数据时,可以充分利用数据信息。而实际的基因数据中,仅有部分数据是有标 签的,其余大部分数据为无标签的,此时,本文所提出的方法也可适用。
2)计算复杂度低,开销较小
mRMR 特征选择方法在选择特征时需要做出大量的互信息的计算,对于特征维度较高时,计算效率较低。本方法首先使用......
提示:此毕业设计论文完整版包含【任务书,论文】 作品编号:jskx0243,word全文:26页,合计:13000字 |
本信息与计算科学毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——基于机器学习方法的致病基因位点选择分析(任务书,论文)!