下载此文档

Python程序设计与实践大作业实验报告陆阳孙勇裘升明精编.docx


文档分类:IT计算机 | 页数:约40页 举报非法文档有奖
1/40
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/40 下载此文档
文档列表 文档介绍
Lele was written in 2021
Python程序设计与实践大作业实验报告陆阳孙勇裘升明精编
浙江工商大学计算机与信息工程学院
《Python程序设计与实践》大作业报告
专 业: 计科
班 级: 1404
学 号:16、15、13
姓 名: 陆阳,孙勇,裘昇明
指导教师: 蒲飞
2015 年 6 月 28 日
题目介绍:
在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号:
U——用户集合
I——商品全集
P——商品子集,P?I
D——用户对商品全集的行为数据集合
那么我们的目标是利用D来构造U中用户对P中商品的推荐模型。
数据说明:
竞赛数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据(D),表名为tianchi_mobile_recommend_train_user,包含如下字段:
字段
字段说明
提取说明
user_id
用户标识
抽样&字段脱敏
item_id
商品标识
字段脱敏
behavior_type
用户对商品的行为类型
包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4。
user_geohash
用户位置的空间标识,可以为空
由经纬度通过保密的算法生成
item_category
商品分类标识
字段脱敏
time
行为时间
精确到小时级别
第二个部分是商品子集(P),表名为tianchi_mobile_recommend_train_item,包含如下字段:
字段
字段说明
提取说明
item_id
商品标识
抽样&字段脱敏
item_ geohash
商品位置的空间标识,可以为空
由经纬度通过保密的算法生成
item_category
商品分类标识
字段脱敏
训练数据包含了抽样出来的一定量用户在一个月时间(~)之内的移动端行为数据(D),评分数据是这些用户在这个一个月之后的一天()对商品子集(P)的购买数据。参赛者要使用训练数据建立推荐模型,并输出用户在接下来一天对商品子集购买行为的预测结果。
大作业报告内容包括以下几个部分
1、数据分组统计:
可统计有多少用户、商品、商品类别等信息,甚至每天各种行为的统计数。如图:
还有,在给出的用户行为数据中,有些用户在整个11-18日至12-18
日对商品有浏览行为记录,但是从未产生过购买行为,这些用户会否在12月19号购买商品实难预测,因此,我们去除这些无购买行为的用户信息,认为这些用户在12月19号还是不会购买任何商品。
贴关键代码
import time
import pandas as pd
start=()
df_items=("")
df_items2=("")
df_items3=()
df_items4=()
df_items5=()
df_items3=df_items["item_id"].drop_duplicates()
df_items4=df_items["item_category"].drop_duplicates()
df_items5=df_items["item_id"].drop_duplicates()
df_items6=df_items2["user_id"].drop_duplicates()
df_items7=df_items2["item_id"].drop_duplicates()
df_items8=df_items2["item_category"].drop_duplicates()
total_behavior_num=len(df_items2)
df_items9=df_items2[==4]
df_items10=df_items2[!=4]
positive_num=len(df_items9)
negative_num=len(df_items10)
item_num=len(df_items3)
item_categories_num=len(df_items4)
item_geo

Python程序设计与实践大作业实验报告陆阳孙勇裘升明精编 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数40
  • 收藏数0 收藏
  • 顶次数0
  • 上传人美梦成真yy
  • 文件大小890 KB
  • 时间2021-05-14