首页 > 论文范文 > 基于Hadoop分布式架构的改进K均值聚类算法的设计与实现范文
  • 基于Hadoop分布式架构的改进K均值聚类算法的设计与实现范文

    时间:2018-02-06 09:52:41 作者:知网查重入口 阅读:


         随着产业界数据量增长趋于爆炸式,大数据的概念越来越多人关注。由于大数据海量、复杂多样和变化快的特征,传统小数据上机器学习算法已经不适用于大数据环境下的应用问题。所以研究大数据环境下的机器学习算法已经成为学术界和产业界关注话题。

    t01b4b9b011a5aa6bac.jpg

    Hadoop是一个在集群上运行大型数据库处理应用程序的开放式源代码框架,其通过谷歌的MapReduce编程范例来创建并执行应用程序的,本文中数据集采用60维加权后特征数据集,实现了k-means算法,完成了对用户数据的聚类划分,验证了该算法的可行性,发现该算法无法更加准确的选择出能够代表不同簇的数据分布特征的中心点。因此,基于Hadoop框架主要针对k-means算法全局搜索能力差、初始聚类中心选择敏感,提出了利用最大距离方法初始化k-means。该算法克服了原始算法容易陷入局部最优解的缺点,具有更好的聚类的质量和综合性能。

    以上就是部分论文写作范文,如写好论文后想在查重的小伙伴,可以点击知网查重入口,然后选择相应的论文检测系统。PS:要先了解自己学校是什么检测统!