数据仓库和数据挖掘 第六讲:数据挖掘及其应用 2 第七讲:数据挖掘的主要算法 13 第八讲:数据库营销和数据挖掘 36 第九讲:风险管理和数据挖掘 56 第十讲:结果检验和项目管理 78 第六讲:数据挖掘及其应用 数据挖掘的项目管理 第六讲:数据挖掘及其应用 葭推拒提的用史耳的 效推拄指技术前臣述 》 数推挖掘的主要支用方向 陞据挖据团对的人费更进 放据控相项营“理的关耀庐 什么是数据挖掘? 数据仓库 数据集市 仃应用价值的信息 多种定义 主要特点 ■数据量大 发现过去未知,隐藏的信息 ■汲取有价值信息 使用所获得信息帮助制订重要商业决策 数据挖掘简单史 数据挖掘的目的是从数据库和数据仓库中提取有价值的信息并将 其用于商业决策,人们普遍能接受上述的观点,但是在提取信息 ,银行、金融 、证券和许多其他行业一直使用传统的统计分析的方法来有效识 ,在过去的10多年里,非统 计的方法已经出现并普遍成为一种衡量人们非统计的、平均行为 ■,不过 统计的方法对许多数据挖掘问题仍然是非常有效的. 根据统计和非统计方法之间的不同把数据挖掘分为两种类型s假 设驱动和发现驱动的数据挖掘,两者最大的区别在于提取信息的 过程不同。 效的区别能力中的若干数据源 征信机构数据 行为数据 交易数据 调查数据 普查数据 人口统计数据 应用数据 历史数据 通讯信息 统计机构数据 决定数据收集的因素 数据挖掘的目标 现仃数据库 数据结构 现有数据源 使用更多数据的成刊与效滞分析 ct i ng Necessary Data i s a Tough Journey More data may not bring as much iiifoi'mation; 1 ift as expected as many attributes are highly coirekited. More attributes may leads to a substantial increasH in the data prevail at ion step of the modeling process. More attributes means bigger databases, bigger modeling data sets, and hence more power to the modeling and supporting platforms. Samp I i ng May Be Necessary Use all available data mav not be efficient. *! Data sample should be big enough to represent popnlat i on Data sample should be small enough for computers to handle within a reasonable time High quality data should be selected ata Preparation, What to Do? Deriving new attributes Attribute transformations Selection of predict ive atti/ibutes ^Deriving and Transforming The most important aspects of attribute recoding can be summarized as: -Dealing with missing values 一 Taking care of outliers -Flag creation ; Missing values often have predictive power and this information needs to be captured, eg, using flags. ? Mathematical transformation Attr i bute SeIecti on I lie purpose is evil ly ident if icat ion of the most powerful predictors and eliminat