下载此文档

回归与神经网络.doc


文档分类:IT计算机 | 页数:约28页 举报非法文档有奖
1/28
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/28 下载此文档
文档列表 文档介绍
回归与神经网络分析目标零售行业拥有大量消费者特征与行为数据,通过对数据进行探索挖掘得到的信息,可以帮助企业针对特定的客户进行营销,用最少的成本取得最佳的收益。分类决策树模型就是一种对实例进行分类的树形结构。决策树学****算法包含特征选择、决策树的生成与剪枝过程。开始时,构建根节点,选择最优特征,该特征有几种值就分割为几个子集,每个子集分别递归调用此方法,返回节点,返回的节点就就是上一层的子节点。直到数据集为空,或者数据集只有一维特征为止。logistic回归又称logistic回归分析,就是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。神经网络就是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。本文旨在通过建立决策树模型、逻辑回归模型、anics数据进行分析,通过划分训练集与验证集判断模型拟合优劣,anics的消费者的特征,从而为企业提供精准营销的客户。数据情况1、添加数据源我们发现AGEGRP1与AGEGRP2与Age内容相似,只就是用不同形式表示年龄,因此选择拒绝这两组变量;同时,anicProductsPurchased代表购买的有机产品的数量,而我们分析的目的就是对消费者就是否购买有机产品进行预测,因此该变量相关性较弱,可以拒绝;最后,anicsPurchased?设为目标变量进行分析。2、数据集右键探索从图中可以瞧到,该数据集共有18个变量,22223个观测。从样本统计量中可以瞧到,大部分变量缺失值都比较严重,后面应该进行相应的补缺处理。上图显示了数据集的前面15条数据。从所有变量的频数统计图中可以瞧到,除了已经拒绝的变量,其余大部分呈现正态分布,只有变量BILL与LITME变量呈现偏态分布,因此后期数据预处理时应该对这两个变量进行转化处理。3、统计探索从目标变量的频数分布图可以瞧到购买人数占比大概就是25%,而不购买的人数占比大概就是75%,说明我们的样本还就是有意义的。数据预处理1、数据分区设置训练集比例70%,验证集比例30%。经过上次决策树实验得出70%&30%比例较好,因此本次建模直接这样分区。分区结果如上2、转换变量根据以上数据探索分析,将BILL变量转换为对数,将LTIME变量转换为对数。转换结果如上,将BILL与LTIME变量转换为对数。3、替换变量分类变量TV_REG明显有多个重复情况,但就是用不同名称表示,因此我们将部分变量值进行替换,将数据规约成较为简洁的结果。4、补缺模型建立所有模型的流程图如下:模型一:默认回归查瞧-结果从结果瞧,默认回归模型选择的变量太多,并且将P值较大的变量也选入了模型中,这种模型并不能很好地反映出现实情况,因此我们将改进算法,设置回归属性参数,从而得出更好的回归模型。模型二:逐步回归查瞧-结果设IMP_GENDER_F为X1,IMP_GENDER_M为X2,IMP_REP_AFFL为X3,IMP_REP_AGE为X4则logistic方程如下:模型三:自动神经查瞧-权重(最终)神经网络图如下:模型四:自动神经(4)选择只用Tanh激活函数由图中可以瞧到,模型选择了第1步迭代的结果

回归与神经网络 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数28
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1033951284
  • 文件大小3.12 MB
  • 时间2020-05-25