下载此文档

数据分析和挖掘相关的十个问题.doc


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
数据分析和挖掘相关的十个问题.doc1、 什么是分类问题?常用的分类算法有哪些?比较和评估分类算法优劣的标准有哪些?
/ 分类是数据挖掘的一个重要课题。分类的目的是获得一个分类模型(常称作分类器), 该模型能把数据库中的数据项映射到给定类别中的某一个。分类可用于提取描述重 要数据类的模型或预测未来的数据趋势。
/ 常用的分类算法有决策树、贝叶斯、神经网络、K-近邻、支持向量机和基于关联规 则的分类算法等。
/ 用来比较和评估分类方法的标准主要有:(1)预测的准确率,模型正确地预测新样 本的类标号的能力;(2)计算速度,包括构造模型以及使用模型进行分类的时间;
(3)稳健性,模型对噪声数据或空缺值数据正确预测的能力;(4)可伸缩性,对 于数据量很大的数据集,有效构造模型的能力;(5)模型描述的简洁性和可解释性。
2、 什么是聚类分析?聚类和分类有什么不同?常用的聚类分析的方法有哪些?
/ 聚类分析是一种将研究对象分为相对同质的群组(簇)的统计分析技术;在同一个 簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
/ 聚类与分类的不同在于,聚类所要求划分的类是未知的,是无监督的学****而分类 是事先定义好了类别,是有监督的学****br/>/ 常用的聚类分析方法有分层聚类法、K-均值聚类法、两阶段聚类法。分层聚类法是 目前使用最多的一种方法,其基本思想是首先将各个对象看作一类,然后将距离最 近的两类合并为一个新类,再计算新类和其他类之间的距离,从中找出最近的两类 合并,继续下去,直到所有的对象都在一类。K-均值聚类法处理速度快,特别适合 处理大样本的数据,但只能对样本进行聚类,需要事前指定分类数目,要求聚类变 量是连续型变量。
3、 什么是主成分分析?主成分分析的运用?
/ 主成分分析(PCA)是一种数据降维方法,它将原来较多的相关变量转化为一组很 少的不相关变量,同时尽可能保留原始变量的信息。这组不相关的变量称为主成分, 它们是原始变量的线性组合。根据主成分所含信息量的大小,称为第一主成分、第 二主成分等。
/ 主成分分析的运用:(1)对一组内部相关的变量作简化的描述;(2)用来削减回归 分析、分类或聚类分析中变量的数目;(3)用来识别变量的重要性程度(如计算满 意度权重);(4)用来检查异常点等
4、 什么是因子分析?因子分析的模型描述?
/ 因子分析是从研究原始变量相关系数矩阵或协方差系数矩阵内部的依赖关系出发, 把一些具有错综复杂关系的变量归结为少数几个因子,以再现原始变量与因子之间 的相互关系的一种多元统计分析方法。因子分析的目的是用有限个不可观察的潜在 变量来解释原始变量间的相关性或协方差关系,这里不可观察的潜在变量称为公共 因子。
/ 设纸,*2,...,*”为p个变量,因子分析的数学模型表达:
x\=awf\+a\2fi+---+ q,”九+弓
X2~a2lfl+ + • • ' + a2,nf„, + e2
X” =apJx+ap2f2+■■■+ apmfm + e. 其中f2, . . . ,
fn,称为公共因了,m<p,它们的系数称为因了载荷,勺称为特殊因了,是 不能被m个公共因子包含的部分。
5、 什么是异常值挖掘?常用的异常值挖掘方法有哪些?
/异常值是在数据集中偏离大部分数据的数据,使人怀疑这些数据并非随机因素产生, 而

数据分析和挖掘相关的十个问题 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数3
  • 收藏数0 收藏
  • 顶次数0
  • 上传人蓝天
  • 文件大小87 KB
  • 时间2021-06-24