下载此文档

基于大数据hadoop平台的出租车载客热点区域挖掘研究.ppt


文档分类:IT计算机 | 页数:约16页 举报非法文档有奖
1/16
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/16 下载此文档
文档列表 文档介绍
基于大数据Hadoop平台的出租车载客热点区域挖掘研究
北京交通大学硕士论文 2016
数据挖掘的过程及主要功能
关联分析
自动预测趋势和行为
聚类分析
概念描述
偏差检测
分类
时间序列分析
关键词:
出租车;大数据;Hadoop;载客热点;并行K-Means聚类
主要工作:
搭建Hadoop实验平台
出租车数据预处理
基于Hadoop平台的K-Means聚类算法并行化实现
利用ArcGIS实现载客热点的可视化
出租车大数据的预处理
采集时长:1年
采集地点:北京市
数据源格式:.txt
数据大小:500G
出租车数量::1min
出租车原始数据清洗过程
将数据上传到HDFS中存储后,就可以设计基于Hadoop集群的MapReduce程序完成数据的清洗工作。
1)重复数据
利用MapReduce默认的Map端key值整合功能达到去重的目的。
2)出租车无关属性
出租车原始数据清洗过程
去除触发事件、速度、方向角以及运营状态为0的对挖掘结果没有影响的属性。
3)GPS状态异常及错误
出租车原始数据清洗过程
GPS状态:0(异常);1(正常)
4)出租车坐标处于非北京的记录
出租车原始数据清洗过程
~,~。
4)记录中重要属性项缺失
出租车原始数据清洗过程
该条记录中所有重要属性项均为0;
有车牌号、时间等次要的属性项;
重要属性经纬度值坐标为零。
总结:
出租车原始数据清洗过程
MapReduce框架进行清洗时主要集中在Map端,首先将出租车记录作为Map阶段的输出的key值,然后利用判断语句选择出这些异常出租车数据记录或者记录中不相关的属性进行删除,最后在Reduce端将Map阶段处理后的数据原样输出到HDFS即可得到所需清洗的结果。

基于大数据hadoop平台的出租车载客热点区域挖掘研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数16
  • 收藏数0 收藏
  • 顶次数0
  • 上传人分享精品
  • 文件大小1.60 MB
  • 时间2017-08-18