统计学专业应该使用什么样的统计软件.docx


文档分类:高等教育 | 页数:约27页 举报非法文档有奖
1/27
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/27
文档列表 文档介绍
统计学专业应该使用什么样的统计软件(写给在统计学院学****的学弟学妹之四) By谢益辉***@2008/11/30 关键词:R语言,SAS ,SPSS ,Stata ,分析数据,收集数据,整理数据,统计分析,统计软件,表述数据分类:基础统计,推荐文章,统计软件作者信息:目前在 Iowa State University 统计系跟着 DiCook 读PhD 。统计之都网站创办者;研究兴趣为统计图形及数据可视化,对前沿统计模型方法的发展感兴趣但不喜纯粹抽象的数学理论,以直观、实用为学****标准;偏好以 R语言为工具; Email :******@ ;个人主页: 版权声明:本文版权归原作者所有,未经许可不得转载。原文可能随时需要修改纰漏,全文复制转载会带来不必要的误导,若您想推荐给朋友阅读,敬请以负责的态度提供原文链接; 点此查看如何在学术刊物中引用本文 RGui :Win 下R的图形界面过去两三年为院刊写了一些稿件,其中一部分是统计技术层面的,一部分是方法论和原则层面的,姑且作为对低年级统计学子们的一些学****建议,目的在于让大家学会擦亮自己的眼睛,辨明统计学的是与非。文章观点仅为一家之言,而且大多数情况下这些观点相对于流行的、教科书式的观点可能有显著差异,因此请各位小心阅读。这次要求我写一篇关于统计软件的介绍,我想我也没这个本事去介绍所有的软件,因此私自把主题改成了“统计学专业应该使用什么样的统计软件”,窃以为这样写更有意义,不然这篇文章就变成了死板的统计软件使用手册。关于统计软件,随着时间的推移,我最终以 R语言为中心,基本废弃了其它工具的学****换句话说,其它统计工具对我来说作用有限,不符合本人的统计分析思想和使用****惯。长话短说,本文的摘要为三个字: 用R吧! 数据分析的需求毫无疑问,选择都是根据需求而定的。换言之,世上没有万能的好软件。C语言、 Fortran 语言等低层语言在计算上效率非常高,而且人人都重视计算,但并非所有人都直接选择这些低层语言作为计算工具,原因就是计算速度快不是唯一的需求;SPSS 号称统计功能齐全,它最近引进了 Python 语言,原因是什么?我个人认为模块化的统计分析过程已经不足以满足现代数据分析的需要——没有哪个问题是点鼠标计算一个回归模型就能解决的。我还见过有的公司花了几百万人民币买了 SAS 软件,其作用只是用来导入导出 Excel 数据,这就是没有明确需求而盲目选择的典型。统计专业对软件的需求是什么?这要从我们直接从事的工作说起。统计的工作是什么?仍然是那个定义:收集、整理、分析和表述数据。统计软件在收集数据中一般用处不大(只有试验设计可能需要计算机生成试验表),而后三部分则处处需要软件的帮助。整理数据要求软件具有良好的处理原始数据的能力。现实生活中的数据与教科书中的行列二维表格区别往往很大,因此我们需要通过整理把那些看似杂乱的数据变成统计中能使用的数据形式。我认为这种能力反映在两方面:(1)字符处理: 例如原始数据为简单的文本格式,我们需要从中提取数据,则需要根据特定的规则读写文本数据,这往往涉及到一边计算一边取数据而不是一口气全读进来,更复杂的情况下还需要正则表达式的帮忙,举例来说,有时候数据分散放在多个文件中,我们需要将含有特定文件名的文件找出来,然后将其中符合条件的行读取出来,最终合并为所需的数据,或再距离来说,我们希望了解某个关键词在 Google 中随着日期推移,搜索结果数目的变化,这样我们需要动态查询 Googl e 网页,每次都把特定位置上的那个数字提出来;这些情况下,数据并非理想中的一张表格形式,需要我们预处理才能使用;( 2)数据库的整理:随着数据存储技术的进步,数据往往都被存放在数据库中,统计人员在分析之前需要和数据库交互查询得到自己所需要的变量或观测,这些过程中,SQL 是必不可少的,因此对SQL 的支持是统计数据整理的基本要求。有人可能会产生疑问,为什么不把这样的工作交给计算机专业的人去做?殊不知统计分析乃是精工细活,数据整理并不仅仅是一个技术问题,更多的是对实际问题和统计模型的理解:我们需要解决什么实际问题?我们需要哪些变量?这些变量从哪里来?统计模型是什么?模型的变量是什么性质(离散、连续)?……在正式分析之前,我们对数据应该还有诸多类似的问题,不然仅仅依靠计算机技术,也许会计算出分类变量的均值(如某班级平均性别为 )或连续变量的频数等不合理的数据结果。当然,不可否认的是,纯粹的计算机技术对统计数据整理也是很有帮助的,这时,我们可能需要找计算机专业人士合作。分析数据应该是统计软件的核心功能,显而易见,这要求统计软件的模型方法比较齐全,表面看来,这只是一个数量的问题,然而,它背后还隐藏着两个问题: (1)程序的可靠性或正确

统计学专业应该使用什么样的统计软件 来自淘豆网www.taodocs.com转载请标明出处.