下载此文档

参考答案of数据挖掘.pdf

文档分类：IT计算机 | 页数：约20页举报非法文档有奖

1/20

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/20 下载此文档

文档列表 文档介绍

该【参考答案of数据挖掘】是由【青山代下】上传分享，文档一共【20】页，该文档可以免费在线阅读，需要了解更多关于【参考答案of数据挖掘】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。:..of数据挖掘下列属于数据挖掘任务的是:根据性别划分公司的顾客计算公司的总销售额利用历史记录预测公司的未来股价可以在不同维度合并数据,从而形成数据立方体的是:数据仓库目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果的是:数据归约:..K-Means(聚类)下列任务中,属于数据挖掘技术在商务智能方面应用的是:定向营销异常检测的应用包括:网络攻击将原始数据进行集成、变换、维度规约、数值规约是哪个步骤的任务:数据预处理KDD是数据挖掘与知识发现的缩写。下列有关离群点的分析错误的是::..下列关于模式识别的相关说法中错误的是:手机的指纹解锁技术不属于模式识别的应用不属于数据挖掘的应用领域是医疗诊断。目前数据分析和数据挖掘面临的挑战性问题不包括分析与挖掘结果可视化。常见的机器研究方法有监督研究、无监督研究、半监督研究。数据挖掘是从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法。频繁模式是指数据集中频繁出现的模式。:..联机分析处理是数据仓库的主要应用。分类是指通过建立模型预测离散标签,回归是通过建立连续值模型推断新的数据的某个数值型属性。数据库是面向事务,数据仓库是面向主题。数据挖掘主要侧重解决的四类问题:分类、聚类、关联、预测。数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结。特征化是一个目标类数据的一般特性或特性的汇总。无监督研究是指在没有标记的数据集上进行研究。其中,聚类是一种将对象划分为多个组或聚簇的方法,使得同组内对象间相似度较高,不同组对象间差异较大。在事务数据库中,每个记录代表一个事务。数据仓库和数据库都是用于存储数据:..的一般特性与一个或多个对比类对象的一般特性进行比较的方法。离群点是指偏离一般水平的对象,通常不需要考虑和研究。聚类过程的输入对象通常与目标信息相关联。数据挖掘的主要任务是从数据中发现潜在的规则,以更好地完成描述数据、预测数据等任务。数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。数据仓库一般存储历史数据,而数据库则存储在线交易数据。数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,并提取出有用的信息的过程。更专业的定义是,根据分析目的,使用适当的统计分析方法和工具,对收集来的数据进行处理和分析,提取有价值的信息,发挥数据的作用。数据库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。下面哪个不属于数据的属性类型?答案是相异。属于定量的属性类型是标称、序数和区间。:..人,二年级160人,三年级130人,四年级110人。则年级属性的众数是一年级。e的最大最小值分别是元和元。利用最大最小规范化的方法将属性的值映射到1的范围内。{},。某班数学期末考成绩分组数据如下,则数据的中位数区间是70至79分。军衔所属的属性类型是序数属性。计算p1()和p2()两个对象之间的曼哈顿距离为5.:..元,标准差为16,928元。如果观测值为57,000元,使用z-score方法对其进行规范化,,数据元组中age的值如下(按递增序):-max规范化,将age值35转换到[,],正确的是:数据平滑:去噪,将连续数据离散化,增加粒度;数据聚集:对数值属性进行监督或无监督离散化;特征构造:构造出新的属性;数据规范化:使数据按照比例缩放,落入特定区域。数据变换的类型包括数据预处理、数据泛化、数据离散化、特征构造。下面哪些方法属于数据预处理:变量代换、离散化、聚集、估计遗漏值。:..处理该问题的常用方法有:删除数据对象或属性、估计遗漏值、忽略遗漏值。对数据进行偏差检测的三个原则分别是唯一性原则、连续性原则、空值原则。数据清理的原则包括相异性原则、连续性原则、唯一性原则、空值原则。高质量数据的要求包括准确性、完整性、一致性。数据预处理的技术手段包括数据清理、数据变换、数据集成、数据规约。假设用于分析的数据包含属性age,数据元组中age的值如下(按递增序):,使用z-score规范化对age值35进行转换,,元组在某些属性上的缺失值是常有的。处理该问题的常用方法有删除数据对象或属性、估计遗漏值、忽略遗漏值。对数据进行偏差检测的三个原则分别是唯一:..数量归约、数据压缩。确定变量、建立预测模型、进行相关分析、计算预测误差、确定预测值是预测分析的基本流程。光照时间和果树亩产量之间的关系是函数关系。每亩施用肥料量和粮食产量之间存在着函数关系。降雪量和交通事故发生率之间的关系不能确定是否为函数关系。在回归分析中,若变量间的关系是非确定性关系,则因变量不能由自变量唯一确定。线性相关系数可以是正的也可以是负的。如果r2=1,则说明x与y之间完全相关。样本相关系数r(-1,1)。:..2~。利用这个模型可以预测该地区每个2~9岁儿童的身高。线性回归方程为y=+()的平均值。回归平方和反映了由模型中解释变量所解释的那部分离差大小。总离差平方和TSS、残差平方和RSS与回归平方和ESS三者的关系是TSS=RSS+ESS。决定系数R2的取值范围是0<R2<,被解释变量为非随机变量是回归分析中定义的。:..组样本观测值的概率最大的准则确定样本回归方程。=-++,该市统计部门随机调查了10个家庭,得到的数据如下:y=+,其中回归直线方程为y=+,常用的三种检验方法包括:相关系数显著性检验法、t检验法和F检验法。回归方程y=-15中,回归系数a是-15,。当x等于10时,,其断面直径与高度之间的关系。:..回归分析按涉及变量的多少分为一元回归分析和多元回归分析。如果线性回归方程中的回归系数b等于0,,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算得到的线性回归方程为y=+(万元),有如下统计资料。若y对x呈线性相关关系,则回归直线方程表示的直线一定过平均值。使用F检验对多元线性回归方程进行线性关系的显著性检验,所求F值越大,说明线性关系越显著。:..对回归方程进行拟合优度检验时,R2越大表示回归方程的拟合程度越好,R2越小表示回归方程的拟合程度越差。回归分析是一种统计分析方法,用于确定两种或两种以上变量之间的定量关系。F检验运用服从F分布的统计量或方差比作为统计检验,通过测量回归方程的线性关系是否显著来进行显著性水平检验准确率。确定性关系是指当一些变量的值确定以后,另一些变量的值也随之完全确定的关系,这些变量间的关系完全是已知的,变量间的关系可以用函数关系表示。上一题所给的数据中,{买买健身器},且Y中至少有一项不在X中,那么Y是X的真超项集。:..ri算法分为两个阶段挖掘频繁项集。ri算法基于支持度的剪枝技术,用来控制候选项集的指数增长。它包括候选集生成和向下封闭检测两个阶段,使用逐层搜索的迭代方法,需要扫描数据库2次。下表所示的购物篮事务数据集中能够提取的3-。ri算法在每一步产生候选项目集时循环产生的组合过多。在扫描大型数据库时,ri算法会增加计算机系统I/O开销。ri算法产生候选项目集时会排除无用的候选项集。考虑如下的频繁3-项集:{},{},{},{},{},{},{},{}。ri算法利用上述频繁3-项集生成的候选4-项集包括{1,2,3,4},{1,2,3,5},{1,2,4,5}和{2,3,4,5}。:..,其中频繁闭项集包括abc和de。一个数据库有5个事务,如下表所示。设min_sup=60%,min_conf=80%。从下列选项中选出频繁2-项集{M,K}。关于非频繁模式,正确的说法是其支持度小于阈值,都是不让人感兴趣的,对异常数据项敏感。下列关于FP-growth算法优缺点的表述中,ri算法,FP-growth算法运行速度要快一个数量级,FP-growth算法在建立FP-tree时占用空间较小,FP-growth算法无须多次扫描数据库,节省了运行时间。但是FP-growth算法处理产生的条件树时会占用很多资源。ri算法包括连接和剪枝两个基本步骤。ri和FP-growth,其中FP-growth的效率更高。先验原理可以表述为:如果一个项集是频繁的,那包含它的所有非空子集也是频繁的。:..如果两个项集的提升度值小于1,则说明两个项集不正相关。两个项集的全置信度越大,它们之间的关系就越紧密,反之则关系越疏远。极大频繁项集的直接超集都不是频繁的。可信度是衡量关联规则准确度的指标。ri算法是一种常用的关联规则挖掘算法。关联规则是形如X=>Y的蕴含式,其中X和Y是I的真子集,并且X和Y的交集为空集。如果一个项集的支持度为50%,而最小支持度阈值为30%,则该项集是频繁项集。最小置信度阈值为70%。:..近邻分类法(K取3)对(色度=,高度=,宽度=)的苹果进行分类的结果为布瑞本。下列是有关是否投保的数据集,第二列至第四列为特征,表中最后一列类别代表是否投保。按照年薪”,使用贝叶斯分类预测记录X=(有房=否,婚姻状况=已婚,年收入=120k)的类标号为No。考虑下表中的一维数据集,对数据点x=,使用1-最近邻、3-最近邻、5-最近邻、9-最近邻,使用多数表决方法分类结果为+、-、+、-。下表给出了一个关于动物类别的训练数据。数据集包含5个属性:warm_blooded、feathers、fur、swims、lays_eggs。若样本按warm_blooded划分,.:..类:{Short,Tall,Medium},Height属性被划分为(,),(,),(,),(,),(,),(,)。对于t=,使用贝叶斯分类方法进行分类,则最终结果为Tall。下列是有关是否购买电脑的数据集,其中学历、是否结婚、收入为特征,表中最后一列类别代表是否购买电脑。:第一步是建立模型并描述数据类集,第二步是评估模型的预测准确率,用准确率可以接受的模型对未知类标号的数据进行分类。常用的分类规则挖掘方法包括决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。其中,决策树是用样本属性作为树的结构,用样本属性的取值作为树分支的结点。为避免过拟合,可加入正则化项控制模型的复杂度。随机森林算法中,每棵决策树的构建所需的特征是从整体特征集中随机选取的。惰性研究法的“惰性”体现在它不急于在收到测试对象之前构造分类模型。K近邻算法中K的取值对结果不会产生较大的影响。支持向量机(SVM)是通过对训练样本求解最小边距超平面来进行分类。:..分类预测天气情况为(天气晴,温度=冷,湿度=高,风力=强)时的结果为不会外出购物。第八章欧几里得距离是一种距离度量方法。、K-Mean和EM,但DBSCAN不是分类算法。MIN(单链)是一种凝聚层次聚类技术,它将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度。STING、CLIQUE和BIRCH都是基于网格的聚类算法。混合模型聚类算法的优缺点包括:当簇只包含少量数据点、或数据点近似协线性时,混合模型也能很好地处理;混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布;混合模型很难发现不同大小和椭球形状的簇;混合模型在有噪声和离群点时不会存在问题。DIANA算法中,两个数据点之间的平均距离被定义为平均相异度。聚类是物理或抽象对象的集合分组成为多个类或簇的过程,不同簇中的对象差别较小。聚类和分类要划分的类是未知的,:..的研究,是示例式研究。聚类分析方法包括基于层次、划分、密度和网格的聚类方法。常用的距离包括切比雪夫距离、欧几里得距离、曼哈坦距离和距离。基于密度的聚类方法可以发现任意形状的簇。

参考答案of数据挖掘来自淘豆网www.taodocs.com转载请标明出处.