下载此文档

2021年2021年度北京民宿数据分析讲义.ppt


文档分类:经济/贸易/财会 | 页数:约43页 举报非法文档有奖
1/43
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/43 下载此文档
文档列表 文档介绍
1 提出问题
*
北京民宿数据分析
*
1 内容
获得北京特色住宿相关的数据,数据信息包含民宿数量,主要分布的区域,住客打分,住客点评量,价格,距离中心区公里数等。
2 工具
市场上没有“现成”的数据,该怎么办?这是面临的第一个难题,后来仔细想想,解决这个难题有3个方法:
A 请专业编程人员爬取数据 B用简单易上手的爬虫软件 C手抄
第一个得花钱,不考虑;第三个得吐血,不考虑。于是选了第二个方法,自学爬虫软件。先后分别用集搜客和八爪鱼爬取数据,相比较八爪鱼更简单。
3 网站
选好了工具,现在要确定从哪个网站进行爬取。分别研究了缤客、携程、去哪儿、Airbnb等,最终选择途家,网站的定位与研究主题一致。
缘起
闺蜜要来北京啦,我要综合分析北京特色民宿和酒店为朋友们
安排一个难忘的“one night in Beijing”
*
北京民宿数据分析
*
一、提出问题
,哪些民宿最集中?通州北关和百子湾,哪个周围民宿最多?
,不同类型的民宿面积多大?海淀的复式面积多大?东城区的四合院面积多大?朝阳的公寓面积多大?
,哪些以情侣为主,哪些以家庭为主?
看完这篇文章,你就可以来北京投资民宿
*
北京民宿数据分析
*
2 数据获取
*
北京民宿数据分析
*
二、数据获得
爬取字段包括:房源描述、区域、商圈、离最近商圈距离、格局、户型、面积、宜住人数、床数、住客评分、住客点评数、价格
共12个字段,3000多条数据集
八爪鱼规则制定
*
北京民宿数据分析
*
数据搜集器:八爪鱼
八爪鱼爬取过程截图
二、数据获得
*
北京民宿数据分析
*
3 数据清洗
*
北京民宿数据分析
*
重新命名。标题呈现“字段_文本”,“字段_链接”等字样,与主题无关,删除字样,依次改为和内容相关的标题。
三、数据清洗
(一)理解数据
*
北京民宿数据分析
*
取子集。原始数据也称作“dirty data”,大量信息是我们不需要的,例如网络链接这列和空白列等,均删除,也可以选择将其隐藏。
三、数据清洗
(一)理解数据
*
北京民宿数据分析
*
删除重复。完成理解数据后,进行重复数据的删除。选择整个数据表格,点击“数据”-“删除重复项”,我们找到386个重复数据,将其删除,剩余2824条有效数据。
三、数据清洗
(二)删除重复项
*
北京民宿数据分析
*

2021年2021年度北京民宿数据分析讲义 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数43
  • 收藏数0 收藏
  • 顶次数0
  • 上传人梅花书斋
  • 文件大小8.38 MB
  • 时间2021-01-25