三七大数据平台技术解决方案-V10.doc


文档分类:IT计算机 | 页数:约257页 举报非法文档有奖
1/257
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/257
文档列表 文档介绍
三七数据
大数据技术解决方案
北京三七数据技术有限公司
2017年7月31日
目录
1 概述 6
2 面临的挑战 6
数据采集 10
数据清洗 10
数据存储 12
数据并行处理 12
数据分析 12
可视化 12
传统解决方案的分析 12
3 相关技术的研究 12
参考模型框架 12
数据采集 12
结构化数据的采集 12
半结构化数据的采集 12
非结构化文本数据中信息的抽取 15
数据清洗和数据质量的保证 15
数据质量的概念及分类 15
数据清洗的原理 18
单数据源中的数据清洗 20
数据的集成和融合 37
多数据源集成问题的分类 38
数据标准化的研究 40
数据集成的流程 41
多数据源中重复实体的清理 41
数据不一致性问题的研究 43
数据的存储和处理 43
并行和分布式处理理论 43
并行RDBMS 47
Hadoop 49
Hadoop扩展和优化 53
NoSQL 58
查询优化 110
大数据中的数据挖掘 112
传统数据挖掘概述 112
大数据时代数据挖掘发展新趋势 120
WEB数据挖掘 124
超数据集成挖掘方法与技术研究 153
数据挖掘网格技术 186
大规模机器学****208
机器学****概述 209
扩展机器学****的必要性 211
面临的挑战 213
概率图模型 214
集成学****215
可视化和可视化分析 225
概述 225
可视化技术 225
可视化分析 227
文本的可视化分析 228
网络可视化分析 230
移动轨迹数据的可视化分析 230
交互式可视化分析 230
数据溯源技术的研究 230
概述 231
模式级数据的溯源 232
实例级数据的溯源 232
数据溯源应用的分类 233
未来研究方向 234
同步技术的研究 235
概述 235
通信程序 235
数据库复制技术 239
ETL技术 242
事务处理 244
XML技术 246
数据共享技术 248
安全技术的研究 249
安全风险分析 249
安全技术需求 250
身份认证与密匙协商 251
访问控制技术 251
入侵检测技术 252
隐私保护技术的研究 253
概述 253
隐私保护的技术手段 254
匿名技术研究 256
4 总体技术解决方案 258
总体描述 258
功能框架 258
技术架构 258
数据采集层 258
数据管理层 258
数据分析层 258
数据展示层 258
数据应用层 258
与传统数据解决方案对比 258
5 实施方案设计和建议 258
概述
(主要是描述大数据的定义,大数据的特点,大数据的来源,大数据的行业趋势,大数据的应用。可以把行业研究报告的总结放在这里)
面临的挑战
大数据分析面临巨大的挑战,以下我们从5方面来讨论:
异构性和非完整性
当用户使用信息时,可以容忍大量的异构性。实际上,自然语言的丰富性和微妙可以提供有价值的深度。然而,机器分析通常希望是同构的数据,无法理解自然语言的微妙之处。所以,通过机器进行数据分析的第一步就是必须仔细地定义数据结构。很多的数据分析系统都要求好的数据结构。少一些的结构化设计对于一些目的可能更加有效,但是计算机系统的有效性则有赖于多个数据的大小和结构的一致性。半结构化数据的有效表示,访问和分析需要更加进一步的工作。即便是在数据清洗和错误纠正之后,数据还可能是不完整的和错误的。在数据分析得过程中应该有效地管理这种不完整性以及这些错误。这是一个非常大的挑战。近

三七大数据平台技术解决方案-V10 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数257
  • 收藏数0 收藏
  • 顶次数0
  • 上传人miaoshen1985
  • 文件大小2.89 MB
  • 时间2018-10-31
最近更新