一种面向大数据的分布式密度聚类方法

Abstract

一种面向大数据的分布式密度聚类方法,包括如下步骤:步骤一:虚拟化环境、搭建Hadoop平台;步骤二:数据预处理与加载:从数据库中将原始数据表抽取,利用sqoop–query命令截取需要的字段,将预处理后的数据直接抽取到Hdfs中;步骤三:计算距离矩阵;步骤四:计算截止距离与点密度;步骤五:计算点与较高密度点的最小距离;步骤六:临界密度点临界距离以及聚类中心;步骤七:点进行聚类,得到最终的聚类结果;步骤八:剔除离群点。本发明在处理大数据集时快速有效,并具备输入参数对聚类结果的鲁棒性较好的效果。

Claims

Description

Topics

    Download Full PDF Version (Non-Commercial Use)

    Patent Citations (2)

      Publication numberPublication dateAssigneeTitle
      CN-103714138-AApril 09, 2014南京理工大学一种基于密度聚类的区域数据可视化方法
      CN-103903276-AJuly 02, 2014吉林大学Driver fixation point clustering method based on density clustering method and morphology clustering method

    NO-Patent Citations (0)

      Title

    Cited By (0)

      Publication numberPublication dateAssigneeTitle