下载此文档

大数据与数据可视化(3).pdf


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
该【大数据与数据可视化(3) 】是由【青山代下】上传分享,文档一共【6】页,该文档可以免费在线阅读,需要了解更多关于【大数据与数据可视化(3) 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。大数据与数据可视化(3)大数据与数据可视化(3)胡经国数据可视化的五个步骤1、前言⑴、从海量数据中抓到关键信息越来越难数据被称作是最新的商业原材料21世纪的石油。商业领域、研究领域、技术发展领域使用的数据总量非常巨大,并且还在持续增长。例如,每年从ScienceDirect(全文数据库)下载的文章有7亿篇Scopus(斯高帕斯)数据库(Scopus收录了来自全球4000家出版社的19000来源种期刊,是全球最大的文摘和引文数据库,是为科研人员提供一站式获取科技文献的平台)上的机构档案有8万个研究人员档案有13万;Mendeley(是一款免的费跨平台文献管理软件,同时也是一个在线的学术社交网络平台)上的研究人员档案有3万。对于用户来说,要从海量数据中抓到关键信息越来越难。⑵、数据可视化的目的许多先进的数据可视化方式如:网络图、3D建模、堆叠地图被用于特定用途例如3D医疗影像、模拟城市交通、救灾监督等。但无论一个数据可视化项目有多复杂,可视化的目的是帮助读者识别所分析的数据中的一种模式或趋势,而不是仅仅给他们提供冗长的描述出色的数据可视化项目应该总结信息,并且把信息组织起来,让读者注意力集中于关键点上。2、包含五个步骤的数据可视化指南本文提供一份包含五个步骤的数据可视化指南为了给想要用表格、图形来传播观察结果和解读分析结果的人士提供帮助,要记住,建立一个好的数据可视化项目是一个反复迭代的过程。⑴、第1步:明确问题在开始创建一个数据可视化项目时,第一步是明确要回答的问题,或者试着回答下面的问题这个数据可视化项目会怎样帮助读者⑵、第2步:建立一个基本图形在确定数据可视化项目的目标以后,下一步是建立一个基本图形。它可能是饼图、线图、流程图、散点图、表面图、地图、网络图等等取决于手头的数据是什么样子。在明确图表该传达的核心信息时,需要明确以下几件事:我们试图绘制什么变量X轴和Y轴代表什么数据点的大小有什么含义颜色有什么含义我们试图确定与时间的有关趋势,还是变量之间的关系有些人使用不同类型的图表实现相同目标,但是这里并不推荐这样做。不同类型的数据各自有其最适合的图表类型。比如,线形图最适合表现与时间有关的趋势,或者是两个变量的潜在关系。当数据集中的数据点过多时,使用散点图进行可视化会比较容易。此外,直方图展示数据的分布。直方图的形状可能会根据不同组距而改变,见图1(图源:网络)。在绘制直方图时,本质上是在绘制柱状图来展示特定范围内有多少数据点。这个范围叫做组距。图1当组距变化时,直方图形状也发生变化组距太窄了会导致起伏过多,让读者只盯着树木却看不到整个森林。此外,你会发现,在完成下一个步骤以后,你可能会想要修改或更换图表类型。⑶、第3步:确定最能提供信息的指标假设我们有另一个关于某研究机构出版物数量的数据库见表1;资料来源:网络。在数据可视化过程中最关键的步骤是充分了解数据库以及每个变量的含义。从表2中可以看出表1用B列数据除以D列得到新的指标相对活跃程度E栏在A领域SubjectA),此机构出版了633篇文章,占此机构全部文章的39%相同时间内全球此领域共出版了27738篇文章,占全球总量的44%。注意,B列中的百分比累计超过100%,因为有些文章被标记为属于多个领域。在这个例子中,我们想了解此机构在各个领域发表了多少文章。出版数量是一个有用的指标不仅如此,与下面这些指标对照会呈现出更多信息:此领域的研究成果总量B列此领域的全球活跃程度由此,我们可以确定一个相对活跃的指标,。。用B列的数据除以D列,得到这个新的指标相对活跃程度E栏见表1。⑷、第4步:选择正确的图表类型现在我们可以用雷达图来比较相对活跃指数,并且着重观察指数最高最低的研究领域。例如,)。但是,此领域的全球总量远远小于其他领域见图2;图源:网络。图2相对活跃指数雷达图雷达图的另一个局限是它暗示各轴之间存在关系而在本案例中关系并不存在各领域并不相互关联。数据的规范化如本例中的相对活跃指数是一个很常见也很有效的数据转换方法但需要基于帮助读者得出正确结论的目的来使用。如在此例中,仅仅发现目标机构对个小领域某非常重视没太大意义。我们可以把出版量和活跃程度在同一个图表中展示,以理解各领域的活跃程度。使用图3的玫瑰图(图源:网络),各块的面积表示文章数量,半径长短表示相对活跃指数。注意在此例中,半径轴是二次的而图2中是典型线性的。从图中可以看出,B领域十分突出,拥有最大的数量由面积表示和最高的相对活跃程度由半径长度表示。用肉眼衡量半径长度可能并不容易。,,见图4(图源:网络)。这样很容易看出哪些领域的半径超出参考线。图3玫瑰图面积示文章数量,半径长短示相对活跃指数E列⑸、第5步:将注意力引向关键信息图4带有相对活跃指数参考线的玫瑰图我们还可以使用颜色帮助读者识别出版物最多的领域。如图例所示,一块的颜色深浅由出版物数量决定。为了便于识别,我们还可以把各领域名称作为标签见图5;图源:网络。综上所述,数据可视化的方法有很多。新的工具和图表类型不断出现每种工具和图表类型都试图创造出比之前更有吸引力、更有利于传播信息的图表。我们的建议是记住以下原则:数据可视化项目应该去总结关键信息并且使之更清晰直白而不应该令人困惑,或用大量的信息让读者的大脑超载。图5玫瑰图中颜色深浅代表出版物数量颜色越亮,出版物越多2016年6月14日编写于重庆2019年11月17日修改于重庆2022年5月5日修改于重庆3

大数据与数据可视化(3) 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人青山代下
  • 文件大小478 KB
  • 时间2024-03-29