下载此文档

数据分析方法小结.ppt


文档分类:办公文档 | 页数:约14页 举报非法文档有奖
1/14
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/14 下载此文档
文档列表 文档介绍
数据分析方法
一多元统计分析方法
(1)多元正态总体的统计推断
参数估计;假设检验
(2)简化数据结构
主成分分析;因子分析;对应分析
(3)分类与分组
聚类分析;判别分析
(4)变量间的相互关系
回归分析;典型相关分析
1 多元正态总体的统计推断
1)参数估计
参数估计是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,分为点估计和区间估计两部分。
点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。
区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。
1 多元正态总体的统计推断
2)假设检验
假设检验是抽样推断中的一项重要内容,是根据原资料作出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,是否应当接受原假设选择的一种检验方法。假设检验又称为显著性检验。
2 简化数据结构
1)主成分分析
主成分分析法实际上是一种降维方法,目的是用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量,通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。主成分分析一般很少单独使用,通常用于在进行多元数据分析之前,对数据做一个大体地了解,如:a、了解数据。b、和聚类分析一起使用。c、和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。d、在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
2 简化数据结构
2)因子分析
用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。即用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量。因子分析可以看成主成分分析的推广,它也是多元统计分析中常用的一种降维方法。
因子分析与主成分分析的区别
a、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
b、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
c、主成分分析中不需要有假设,因子分析则需要一些假设。d、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。
e、在因子分析中,因子个数需要分析者指定,指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。
大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。但是这种情况也可以使用因子得分做到。
2 简化数据结构
3)对应分析
对应分析也称关联分析、R-Q型因子分析,对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。对应分析法整个处理过程由两部分组成:表格和关联图。
3 分类与分组
1)聚类分析
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。即是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析的目标就是在相似的基础上收集数据来分类。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。
从机器学****的角度讲,簇相当于隐藏模式。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。
3 分类与分组
2)判

数据分析方法小结 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数14
  • 收藏数0 收藏
  • 顶次数0
  • 上传人iris028
  • 文件大小37 KB
  • 时间2018-07-04