下载此文档

探索性数据分析.doc


文档分类:论文 | 页数:约16页 举报非法文档有奖
1/16
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/16 下载此文档
文档列表 文档介绍
分布的概念
一个变量的分布是该变量的取值的具体表现形式,它不仅描述了该变量的不同取值,同时也描述了其每个值的可能性。
一、变量类型及其分布
首先我们打开life expectancy这个数据表。本例中的每个国家都有13年的年度观察数据,并且每个国家的13年数据都是以年份为序依次排序。JMP将这种编排方式称为堆叠数据。
区分四类变量:定类变量(定名型、定序型),定量变量(定距型、定比型)
二、定类变量的分布
选择菜单---分析。将region作为Y,列变量。点击确定,得到如下结果。
JMP构造出了一个简单的矩形条形图,列出了六个大陆地区,并用直方条显示出相应区域在数据中出现的次数。虽然不能在图表中准确的获悉每个区域中国家的数目,却能清晰的得知south Asia国家数目最少,Europe&Central Asia国家数目最多。
图形下方的频数分布表提供了一个更加详细的变量概要。
菜单选择图形---图表。图表对话框如下图,可生成很多其他格式的图表。默认设置是竖直方向的条形图。
4、选择列框中点击Region,并点击按钮统计量,选择数量。结果得到一张可以显示每个区域观察对象数量的条形图。
可以通过点击图表右侧的红色三角形按钮进行更改和自定义图形。
。我们也可以修改输出结果。
,选择列信息。
,选择值排序。
,使用按钮上移和下移,最后确定。
,选择脚本——重新运行分析。最后才得到我们需要的顺序的图形。
三、定量变量的分布
选择数据表的一部分
某些时候我们需要从数据表中选择某一些特定的行进行分析。JMP为我们提供了在分析包含和剔除行的多种方法。
菜单选择行—行选择—选择符合条件的行。
如下图所示,选择那些year等于2010的行,点击添加条件,最后点击确定。
菜单选择表---子集。在子集对话框中要确保做出的选择是选定行选项,并点击确定。
窗口中会显示出第二张打开的数据表。该表中有与第一张表相同的四个变量,但仅有195行。在每个案例中,观察年份都是2010年,并且每个国家只有一行数据。
连续型数据直方图的构建
菜单选择分析——分布。将LifeExp选入Y,列框中。
当分布窗口打开时,点击LifeExp左侧的红色三角形按钮,选择直方图选项——垂直。该操作会清空垂直选项前的复选框,将直方图变成更加符合传统的水平方向。

上面的直方图是世界各国预期寿命分布的一种表示方法,它给我们提供了关于寿命预期是如何变动的视图,直方图上方是一个箱线图。
寿命预期在40~45岁的国家很少,相对的,许多国家预期寿命在70~75岁之间。
形状:涉及以下两个方面:直方图的对称性和图形中峰值的数目。显然图中可以看出,是一个非对称图形,图形左侧尾部的观察值很少,而右侧聚集了大量的观察值。我们称具有该形状的图形是左偏分布。峰值在70~75岁。
中心:分布的中心有多种定义,包括统计意义上的均值、中位数、众数。从视觉上看,我们可以将直方图的中心定义为横轴的中心值(中位数该例接近60~65岁),或有最大频数的区间(众数,该例为70~75岁),或视觉上的均衡点(均值,该例中接近65~70岁)或其他方式的定义。
离散程度:中心的概念注重于变量取值的代表性,离散程度的概念则注重于对代表性取值的偏离程度。
返回至原始的Life Expectancy数据表。
菜单选择行—数据过滤器。添加Year作为过滤器列。
数据过滤器能帮助我们确定所需行。
同时选择如上所示复选框中的包括;默认设置是选择。
从主菜单栏中,选择分析—分布。
如下图所示,选择LifeExp作为Y,列。
由于我们想要对各个年份分别进行分析,因此选择Year作为依据,并点击确定。上述操作将会产生两个垂直方向的直方图。观察可知,第一个分布的数轴变化在25岁~75岁,而第二个则是从40岁~85岁。
在分布的输出中,按住Ctrl键的同时点击分布左侧的红色三角形标志便选择统一尺度。
再次点击红色三角形,选择堆叠。
此时显示的图形如上图所示。与2010年的分布相比,1950年的分布的形状有哪些不同?造成这两个分布形状上的差异是什么?
从两个直方图可以看出,人们现在比1950年时生存时间更长。2010年寿命的预期分布的位置远比1950年的偏右。我们可以得知1950年的预期分布比2010年更加分散。以上分析可以揭示过去60年间寿命预期发生了什么变化。

探索性数据分析 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数16
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1136365664
  • 文件大小2.80 MB
  • 时间2018-04-27
最近更新