大数据分析和内存计算第4讲数据挖掘技术概述提纲数据挖掘概览数据预处理分类(Classification)聚类(Cluster)关联规则(AssociationRule)回归(Regression)数据挖掘概览What?数据挖掘的定义Why?数据挖掘的动机How?哪些数据可以用来挖掘?数据挖掘的主要内容数据挖掘定义什么是数据挖掘(DataMining)?Extractionofinteresting(non-trivial,implicit,previouslyunknownandpotentiallyuseful)patternsorknowledgefromhugeamountofdata其他称谓:Knowledgediscovery(mining)indatabase(KDD),data/patternanalysis,businessintelligence,decision-supportsystem,knowledgeextraction,dataarcheology,.,(association)rulelength,(decision).,confidence,P(A|B)=#(AandB)/#(B),uracy,rulestrength,,.,support(association),noisethreshold(description)NoveltyNotpreviouslyknown,surprising(usedtoremoveredundantrules)为何需要数据挖掘?数据量大缺乏理论知识数据挖掘可以帮助产生新的假说或者使数据变得有意义为何需要数据挖掘?Wearedrowningindata,butstarvinginknowledgeDataexplosion:umulatedand/ortobeanalyzedindatabases,datawarehouses,:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府人口统计生命周期数据挖掘的意义股票趋势分析智能交通数据挖掘应用银行美国银行家协会(ABA)%。分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等电子商务网上商品推荐;个性化网页;自适应网站…生物制药、基因研究DNA序列查询和匹配;识别基因序列的共发生性…电信欺诈甄别;客户流失…保险、零售数据挖掘应用Debt<10%eDebt=0%e>$’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees倾向性分析客户保留客户生命周期管理目标市场价格弹性分析客户细分市场细分倾向性分析客户保留目标市场欺诈检测关联分析Association市场组合分析套装产品分析目录设计交叉销售
清华大学大数据课程第4次课数据挖掘技术145 来自淘豆网www.taodocs.com转载请标明出处.