大数据Apriori算法的研究与实现
[关键词:大数据,Apriori] [热度 ]提示:此毕业设计论文完整版包含【开题报告,任务书,论文,源程序,答辩稿】 作品编号:txgc0866,word全文:44页,合计:20000字 |
本文详细描述了大数据、数据挖掘、关联规则的基本内容以及数据挖掘常用的十大经典算法。在这些内容的基础上重点探讨了Apriori算法,并对经典的Apriori算法进行了分析,然后又对其做出了改进优化。
改进算法的思想
关联规则要求的是支持度和置信度要满足给定的阈值,关联规则的发现需要涉及到如下两个步骤:
(1)寻找得到所有的频繁项集,其最后出现的频率和预定义的支持度阈值是一致的。
(2)强关联规则是由频繁项集产生的,也必须满足支持度和置信度的阈值。
Apriori算法由于要多次扫描事务数据库,从而造成很重的I\O负担,所以改进的算法将从减少事务数据库扫描次数的角度出发来对原来的算法进行优化。
改进算法的思想就是利用频繁k+1项集中的任一元素,一定可以表示成频繁
K项集中某一元素与频繁1项集中某一元素的交集这个性质来产生频繁项集,以此方法来减少扫描事务数据库的次数
对改进算法的认识
经典的Apriori算法在对数据事务库中进行操作时需要对其中的数据进行多次的扫面,这就极大地增加了输入输出负载,那么我们在改进该算法时就需要避免这个问题。改进的算法把存在的项集数目与支持度阈值进行比较的话,知识需要判断该项集是否为频繁项集就可以了而不必再去重复的扫描事务数据库,从而减少了输入输出的负载。当然,改进后的算法也存在不足的地方,因为这个时候需要把产生的项集集合都保存起来,那么必然会占用更多的内存,所以还需要有更好的改进算法来弥补这个不足。
总结与感想
本文首先阐述了大数据相关的知识,并谈了谈自己对大数据的理解,通过了解,我才明白为什么有人说“未来是大数据的”。数据挖掘是大数据研究的主要技术,在第二个章节中,就主要阐述了数据挖掘的相关理论知识,包括数据挖掘的产生、数据挖掘的定义、数据挖掘的过程、数据挖掘的任务等。紧接着就论述了关联分析在数据挖掘中的重要性,关联分析是数据挖掘的核心,是我们得出可靠可用决策的重要方法。在以上基础上,文章又重点介绍了Apriori算法,在对该算法进行分析后,发现该算法的不足之处后又提出了一种改进算法,使得该算法得到了效率上的优化。当前,大数据的发展是一种必然趋势,研究大数据算法就显得尤为重要。大数据算法也可以说是数据挖掘的算法,我们怎么去对数据进行挖掘,怎么去对数据进行处理,又能从这些挖掘过来的数据得到什么结论与启发,这是我们要思考的问题。在本文中就重点介绍了Apriori算法,这种算法的思想关键之处在于不断迭代产生频繁项集,在产生频繁项集的过程中进行剪枝步操作,我们在设计算法时,要想好怎么迭代以及如何进行剪枝,这两个步骤在算法实现的过程中是十分重要的。
提示:此毕业设计论文完整版包含【开题报告,任务书,论文,源程序,答辩稿】 作品编号:txgc0866,word全文:44页,合计:20000字 |
本通信工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——大数据Apriori算法的研究与实现(开题报告,任务书,论文,源程序,答辩稿)!