大数据平台分布式算法研究-毕业论文设计参考

当前位置：毕业论文设计参考 >> 其它专业论文 >> 信息与计算科学本科论文

大数据平台分布式算法研究

[关键词：大数据平台,分布式算法] [热度 ]

提示：此毕业设计论文完整版包含【任务书，论文】
作品编号：jskx0237，word全文：30页，合计：16000字

点我参考完整版

以下仅为该作品极少介绍，详细内容请点击购买完整版！

大数据平台分布式算法研究毕业设计论文------

本文设计了一种基于 Spark 分布式计算平台的 DBSCAN 聚类分析算法 K-DBSCAN，有效地提高了数据分区的准确性。通过建立测试数据集进行聚类分析，对于分析结果，与已有的分布式DBSCAN 算法进行对比，通过多种聚类评估指标进行验证，从而证明本文提出的数据分区方法的有效性。

本篇论文分为五个部分，第一部分为绪论，第二部分将介绍关于大数据、分布式聚类算法相关背景，第三部分将介绍本文提出算法的理论基础，第四部分展示实验结果并进行分析，最后一部分对本篇论文的内容进行总结并提出未来工作中可以完善和改进之处。

对于表中的指标，准确率（Precision）越大，则表示分类效果越好；召回率（Recall）越大，则表示分类效果越好。F-Measure 越大，表示分类越准确。由于 K-means 算法无法有效地过滤噪声点，因而其关于噪声点的簇的精确率、召回率和 F-Measure 值异常，准确率和 F-Measure 均为∞，故未在表中列出。

对于已有的 DBSCAN 算法和本文中的 K-DBSCAN 算法，设定了相同的邻域半径ε 参数、核心对象周围点的最小数量 MinPts 参数和每个分区内最多可以容纳的点的数量

MaxPtsPerPartition 参数。并且在 K-DBSCAN 算法的预处理步骤中，和 K-Means 算法设定相同的初始簇数 k以及迭代次数 N。

表中所有的最优结果用加粗字体标注，如果几种算法都达到最优的结果，则都用

加粗字体表示。

针对本实验，参数设定值为：ε = 9.5，MinPts=30，MaxPtsPerPartition=200，K=6，

N=20。

表 4-1 显示，K-DBSCAN 算法显著优于 K-means 算法。并且和已有的 DBSCAN 算法相比，对于标签为 1 和 3 的聚类簇以及噪声点（outliers），K-DBSCAN 算法的正确率均有一定程度的提升，并且，对于整体的 F-Measure 参数，K-DBSCAN 算法也存在一定的优势。

本文分析和讨论了 DBSCAN 算法的优缺点, 考虑到 DBSCAN 对于全局参数 Eps 以及 MinPts 的依赖性，为了解决 DBSCAN 不能进行良好分区的问题，设计了一种数据预分区的分布式聚类算法 K-DBSCAN，利用 K-means 方法把数据划分不同的分区, 对每个分区单独处理,不仅减少了全局变量MinPts 对聚类效果的影响, 提高了聚类质量; 另一方面, 使用分布式算法也提高了聚类效率,降低了原始DBSCAN 算法对于计算机性能的依赖。最后通过实验分析了不同聚类算法的聚类效果，实验结果中表明:改进的聚类算法具有有效性以及一定的优化性。

本文提出的 K-DBSCAN 算法仍有诸多缺陷，例如需要根据数据集初始可视化结果设定 K-means 的 k 值、根据一定统计量设定全局参数ε和 MinPts、对于存在连通区域的数据集不能解决 DBSCAN 算法本身的缺陷以及不能很好的解决 DBSCAN 算法难以处理大量数据的问题。今后的工作可以着重于参数的自适应调整，例如根据不同数据集自动选取 k 个中心进行聚类、根据分区内的密度设定每个分区内的参数ε和 MinPts，从而得到更高效更准确的结果。