第一次知道大数据时代这个概念是在大一,本来以为是很高端深远的东西,但是就现在肤浅的认识看,其实就是我们所处的这个时代。所谓大数据,无非就是社会进步、经济进步所导致的一个必然结果,尤其是如今这种非结构式的信息膨胀得很快。首先,对于大数据时代这本书,由于是译本我觉得很多地方读起来没有逻辑有点难理解。但是这本书最好的一点就是较生活化、通俗化地讲述了大数据已经给我们生活带来的变化以及我们还可以利用大数据去改变什么。在这本书中,作者强调了是三个原则:一、不是随机样本,而是全体数据;二、不是精确性,而是混杂性;三、不是因果关系,而是相关关系。对于第一点,作者是认为小数据通过抽样能够获得更多信息,但随着各种类型数据的不断增多,海量的数据通过抽样去获取信息就没有意义了。我觉得作者不能太过度强调全面数据,因为它毕竟有很多的条件限制,比如是否有能达到的技术支持,是否经济,是否合理,所以并不能一味地追求全面数据所带来的完整信息,至少我认为就现在大部分的数据调查来看,有的时候还是合适才是最好的。还有一点就是我们在收集、分析全面数据的时候也在不断产生新的数据,怎么证明这些新数据不是我们需要的全面数据中的一部分呢。对于第二点,作者说允许不精确的出现成为了一个亮点,说得来就跟以前我们收集分析都非常精确一样,其实在统计中提到的置信区间、显著性水平这些限制就是一种容错率的概念,也就是说我们一直都是允许不精确的。第三点其实在讲大数据带来的一个巨大的颠覆在于,人们可以利用数据的相关性直接做出决策而不用拘泥于背后的原因。例如沃尔玛通过调查知道“飓风的时候草莓味蛋挞卖得好”,但是我们根本不知道原因到底是为什么,其实我们也不需要知道,沃尔玛要做的仅仅是在飓风的时候增加草莓蛋挞的库存并且把它摆到显眼的位置就可以了。所以利用大数据我们可以做出很多这样的精明决策,但是数据也逐渐在代替了人做决策,我觉得人类的思想被彻底挑战了。我认为机器对于数据的分析体现相关关系,而因果关系则大部分来自于人为的想法,作者在书中前面部分说到“真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据”,所以重点是人类的思想和人类的运用。我觉得这一点上作者讲得有点前后矛盾。这么多年来,人类一直都在靠因果关系来理解和审视世界,而且事实也证明这没错,其实一旦有人的思维在就是不可能避免因果关系的出现,我觉得如果太强调相关关系就少了点人文情怀了。这本书中作者说大数据的核心是预测,我觉得这才是最关键的,因此不用太在意作者所提过的那三个原则,我们知道能用大数据去做什么才更应该被在意,毕竟数据的使用者是我们。作者说量
浅谈大数据感想 来自淘豆网www.taodocs.com转载请标明出处.