下载此文档

7比赛题目七:大数据环境下集成R语言的数据挖掘平台.docx


文档分类:IT计算机 | 页数:约2页 举报非法文档有奖
1/2
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/2 下载此文档
文档列表 文档介绍
.
比赛题目七:大数据环境下集成R语言的数据挖掘平台2013-02-2117:31:50来源:作者:【大中小】浏览:530次
第二届“中国软件杯”大学生软件设计大赛赛题
大数据环境下集成R语言的数据挖掘平台
赛题简介:介绍整个赛题的思路和整体要求
思路:
随着信息化的推进,企业产生了大量业务数据,其中蕴藏着大量未知的、潜在的信息。数据挖掘是一种新的商业信息处理技术,通过对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,可提取辅助商业决策的关键性信息。
开源软件R是当今相当流行的数据分析、统计制图语言,提供了丰富的分析模块和实用工具,在业界已得到广泛应用,可以从http://www.r-project.org/自由下载和使用。但是,最终用户并非都是数据分析专家,难以快速掌握和灵活运用R语言。为了充分发挥R语言的价值,为用户提供功能强大的分析工具,设计一个集成了R语言功能的、易用的数据挖掘平台意义重大。
另一方面,企业面对的数据量越来越大,大数据处理能力日趋重要,但传统的数据分析方法在大数据环境下面临诸多瓶颈。
整体要求:
设计一个能处理大数据的、以R语言作为数据分析引擎的“大数据环境下集成R语言的数据挖掘平台”,以解决企业在数据挖掘方面日益增长的需求。
赛题业务场景:描述赛题相关的真实企业业务背景。
从真实场景中,适当简化或者提炼出适合比赛的赛题场景
数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘应用效果都非常明显,尤其是在如银行、电信、保险、交通、零售(如超市)等商业领域。数据挖掘所能解决的典型商业问题包括:客户细分、交叉销售,以及客户流失性分析、客户信用评价、欺诈发现等等。
数据挖掘按照其功能以及应用来划分,主要有:分类、聚类、关联规则、时间序列等,可以应用到企业决策分析和管理的各个不同领域和阶段。
本题要求参赛队伍设计一个集成了R语言的数据挖掘平台。当用户登录到该平台以后,能够选择数据源,建立数据分析流程,选择分析方法,设置好分析参数,然后执行分析过程,并以图和表的形式展示分析结果。比如某销售经理登录系统以后,能够从现有业务数据库中选择销售记录和客户数据,选用系统提供的分类、聚类、关联规则、时间序列等数据分析模块进行计算,能够进行企业的客户类别分析、基于交叉销售的消费行为分析或进行销售预测,帮助企业识别价值客户,提高服务水平。
功能性需求
用户使用图形式化界面进行操作。用户可以设置数据来源,选择分析方法,设置分析参数,建立分析流程,不用编写R代码就能够进行数据分析,得出结果,但是具体的计算过程则是通过在底层调用R语言来实现的。也就是说要求使用R语言的分析功能,但要屏蔽R的复杂性;
系统至少要提供分类、聚类、关联规则、预测等至少2种数据挖掘分析方法,并且方法要有参数设计界面,允许用户通过调整参数,优化分析结果;
能够处理多种来源数据。如可连接至少2种常用关系型数据库(如Oracle、SQLServer、mysql、PostgreSQL等),能够读取csv或xls文件数据;
必须能处理结构化数据。在此基础上如果还可处理半结构化和非结构化数据将更好

7比赛题目七:大数据环境下集成R语言的数据挖掘平台 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数2
  • 收藏数0 收藏
  • 顶次数0
  • 上传人niupai11
  • 文件大小12 KB
  • 时间2022-05-20