下载此文档

基于用户画像的大数据挖掘实践.ppt


文档分类:IT计算机 | 页数:约30页 举报非法文档有奖
1/30
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/30 下载此文档
文档列表 文档介绍
基于用户画像的大数据挖掘实践
2014年11月
杨步涛
2014中华架构师大会
纲要
沃商店定位
2 沃商店大数据体系架构
3 用户画像建设
4 个性化推荐
5 广告
6 用户画像的其他应用实例
沃商店定位
沃商店定位
2013年中国手机应用分发总量快速上升,其中应用商店的分发量占比超过80%;
TOP10渠道占总分发量的90%。
2013年中国手机游戏市场近100亿元,2014年预计将达到180亿元。
多款优质手游月流水超过5000万元。
运营商通信账户SDK支持APP应用内付费,提升付费转换率,从不足5%提升至20%以上。
话费支付的便捷优势机遇期短暂仅1-2年,移动互联网支付的替代转瞬即至。
内容分发
平台
能力开放
平台
游戏运营
平台
2
沃商店大数据架构体系
离线计算
数据存储
实时
离线
FTP
HDFS
MR
HIVE
Sqoop
FumeNG
数据采集
数据处理存储层
建模
站内
Kafka
Zookeeper
Storm
实时计算
Hbase
Mysql
Redis
数据可视化
Ganglia
Spark
Nagios
Ozzie
监控管理
调度
特征工程
机器学****算法库
能力开放应用
用户画像/分群
流量
经分
个性化推荐
广告
分类/回归
聚类
主题
预测
Log Server
CP
GGSN
BSS
DM
非结构化
结构化
降维
优化
PUSH
特征工程—用户画像
基本维度
性别、年龄、地域、终端、网络、
渠道、机型…
兴趣、标签维度
商业维度
影音、生活、社交、金融、
阅读、儿童亲子…
转化、新老用户、频次、
付费次数、ARPU、通信消费、
信用等级
语义挖掘
行为标注引擎
网络爬虫引擎
知识库
自我
学****br/>结构化
沃商店、CP
数据开放
智能推荐
PUSH
流量
广告
经分预测
用户画像
非结构化
用户画像—行为标注
结构化数据:
网站-动作-对象(名称、分类、标签)
行为标注引擎
URL
规则库
内容对象
知识库
网页内容爬虫引擎
网站
知识库
URL解析标注
语义特征
抽取
URL字符串
http://detail./?spm=&id=38799101147&abbucket=13
http://money./14/1107/15/
淘宝-浏览-(雀巢2段,婴幼儿-奶粉,奶粉、雀巢、、)
网易-浏览-(财经-证券,、、)
用户画像—网页文本分类
特征预处理、特征筛选(降维)
支持向量机SVM
结构风险最优化
非线性(核函数、松弛变量)
1对1方式多分类支持
评估:准确率、召回率、F1
算法
准确率(P)
召回率(R)
F1
朴素Bayes
85%
%

SVM
92%
93%

用户画像—兴趣建模
行为权重
时间衰减
热度衰减
活跃度衰减
x
x
x
归一化
2
Action
[浏览
QQ 、
20141028]

3
6
Action
[下载
彩票、
20141027]

6
3
2
用户画像应用实践
个性化推荐
广告
信用等级分群
用户流失预警
游戏潜在用户群体筛选
异常监控分析
推荐—应用场景
首页推荐应用详情推荐

猜你喜欢
广告
用户粘性
转化率

基于用户画像的大数据挖掘实践 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息