下载此文档

Spark平台在电信运营商的应用实践.pdf


文档分类:通信/电子 | 页数:约31页 举报非法文档有奖
1/31
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/31 下载此文档
文档列表 文档介绍
Spark平台在电信运营商的应用实践亚信⼤数据平台⽥毅⺫录★项⺫实践分享★基于Spark改造⽤户标签分析查询平台★基于SparkStreaming改造内容识别处理平台★⼀些⼼得分享★如何⽤好ExternalDataSourceAPI★⾼效的在SparkStreaming中引⽤外部数据○基于Spark改造⽤户标签分析查询平台3○基于Spark改造⽤户标签分析查询平台•改造前的设计TCL脚本⽤户数据清洗指标计算标签计算数据探索客户群计算通信数据接⼝表指标表标签表上⺴数据SQL数据库4○基于Spark改造⽤户标签分析查询平台•改造前的问题•1标签数量越来越⼤,数据库负载过⾼,扩展成本⾼•2标签表的列数随着标签数量增加不断增多,部分现场达到2000+,只能通过分表的⽅式解决,查询时需要Join操作•3标签与指标的计算⽆法摆脱SQL的约束,⽆法快速集成机器学****的算法○基于Spark改造⽤户标签分析查询平台•第⼀次改造设计:⼩试⽜⼑TCL脚本⽤户数据清洗指标计算标签计算数据探索客户群计算通信数据接⼝表指标表标签表SparkSQL上⺴数据HDFS数据库6○基于Spark改造⽤户标签分析查询平台•改造后的好处•1使⽤SparkSQL+Parquet的⽅案,有效保证了查询效率•2原有系统基本不⽤太⼤改造•3查询系统具备平⾏扩展能⼒•未解决的问题•1标签与指标的计算⽆法摆脱SQL的约束,⽆法快速集成机器学****的算法•产⽣出来的新问题•1增加了从数据库倒出数据,加载到HDFS的额外步骤•2增加了从⽂本数据转化为Parquet格式的额外步骤○基于Spark改造⽤户标签分析查询平台•第⼆次改造设计:⼤⼑阔斧SparkSQL⽤户数据清洗指标计算标签计算数据探索客户群计算通信数据接⼝表指标表标签表上⺴数据SparkSQLHDFS8○基于Spark改造⽤户标签分析查询平台•改造后的好处•1通过SparkSQL替换掉了原有的数据库,整个系统的扩展性进⼀步增强•2两套SparkSQL可以根据各⾃忙闲时的不同,共享整个系统的计算资源•遗留的问题•1没有摆脱标签分析算法对于SQL的依赖•2系统前端仍然依赖ETL系统对数据进⾏抽取加载•怎么破?○基于Spark改造⽤户标签分析查询平台••ExternalDatasourceAPI进⼀步增强•DataFrame提供了丰富多样的数据源⽀持•DataFrame提供了⼀整套⽤于操纵数据的DSL

Spark平台在电信运营商的应用实践 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数31
  • 收藏数0 收藏
  • 顶次数0
  • 上传人977562398
  • 文件大小841 KB
  • 时间2019-11-18