《大数据时代》读后感心得字以上

时间:2020-11-15 20:19:56 读后感2000字 我要投稿

《大数据时代》读后感心得2000字以上

  凡是过去,皆为序曲是大数据业者最喜欢引用的语句。大数据是现在的潮流,《大数据时代》被认为是了解大数据的初级读物。近期连续读了两遍,第二遍是为了写这篇读后感,总体而言,值得一看,但细节方面却需要讨论了。

《大数据时代》读后感心得2000字以上

  维基百科对大数据的解释:Big data,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

  有人说现在是读图时代,除去小说、心灵鸡汤以外,现在的畅销书基本都有图片,这本书是一个特例(书里唯一的图是出品方湛庐文化做的)

  首先尝试解析一下作者的三大观点,这三大观点是大数据业者很喜欢引用的三句话:

  1 不是随机样本,而是全体数据

  我想所有人都能意识到对全体数据的分析优于对随机样本的分析,但在现实中我们经常拿不到全体数据:一是对象的特性:比如炸弹的威力,你不可能把所有炸弹都炸掉来得到全体数据;二是数据的收集方法,每一种方法都有适用的范围,不太可能包罗万象;三是数据分析的角度,战斗机只能统计到飞回来的飞机上的弹孔,而坠毁的则无法统计,沃德通过分析飞回来的战斗机得出来最易导致坠毁的薄弱点;四是处理能力跟不上,就像以前的天气预报太离谱是因为来不及算那些数据。“采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物”,作者显然只关注了一部分原因。

  从语言的理解上看,什么是全体数据,究竟是“我们需要的所有数据”,还是“我们能收集到的所有数据”,书中的很多商业案例中,处理的只是“我们能收集到的所有数据”,或者说是“我们认为的全体数据”。人对自然的认识总是有限的,存在主义认为世界没有终极的目标。书中举例“Farecast使用了每一条航线整整一年的价格数据来进行预测”,而“整整一年”就是一个采样,或者是“我们需要的所有数据”。

  从历史的角度看,国外的托勒密建亚历山大图书馆唯一的目的是“收集全世界的书”,实现“世界知识总汇”的梦想,国内的乾隆汇编四库全书,每个收集的过程都有主观因素在里面,而他们当时都认为可以收集全部的书籍,到最后,我们也没有得到那个梦中的全体。

  2 不是精确性,而是混杂性

  既然我们过去总是在抽样,那本身就是在一个置信水平下,有明确的容错度或者是偏差值。人类永远知道我们是在精确性受限的条件下工作。同时,作者本身也承认 “错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在”。那大数据的特征究竟是精确性还是混杂性?

  由此衍生出一个问题,大数据的品质如何控制:一、本身就不要求精确,但是不精确到何种程度是需要定义的,否则就乱套了,换个角度,如果定义了容错度,那符合条件的都是精确的(或者说我这句话还是停留在小数据时代?这里的逻辑我没有理顺)。就像品质管理大师克劳斯比提出过零缺陷理论,我一直觉得是一个伪命题,缺陷是一定存在的,就看如何界定了;二、大量非结构化数据的处理,譬如说对新闻的量化、情感的分析,目前对非SQL的应用还有巨大的进步空间。

  “一个东西要出故障,不会是瞬间的,而是慢慢地出问题的”。“通过找出一个关联物并监控它,我们就能预测未来”。这句话当然是很认同,但不意味着我们可以放弃精确性,只是说我们需要重新定义精确度。之于项目管理行业,如果一个项目出了严重的问题,我们相信,肯定是很多因素和过程环节中出了问题,我们也失去了很多次挽救的机会。而我们一味的容忍混杂性的话,结果显然是不能接受的。

  3 不是因果关系,而是相关关系

  这是本书对大数据理论的最大的贡献,也是最受争议的地方。连译者都有点看不下去了。

  相关关系我实在是太熟了,打小就学的算命就是典型的“不是因果关系,而是相关关系”。算命其实是对趋向性的总结,在给定条件下,告诉你需要远离什么,接近什么,但不会告诉你为什么那样做。

  我们很多时候都在说科学,然而,什么是科学,没有人能讲清楚。我对科学的认识是:一、有一个明确的范围;二、在这个范围内树立一个强制正确的公理;三、有明确的推演过程;四 可以复制。科学的霸道体现在把一切不符合这四个条件的事物都斥为伪科学、封建迷信,而把自己的错误都用不符合前两条来否决。从这个定义来看,大数据不符合科学。

  混沌学理论中的蝴蝶效应主要关注相关关系。它是指对初始条件敏感性的一种依赖现象,输入端微小的差别会迅速放大到输出端,但能输出什么,谁也不知道。

  人类一旦放弃了对因果关系的追求,也就放弃了自身最优秀的品质:意志力。很多人不愿意相信算命是担心一旦知道了命运,就无法再去奋斗。即使我相信算命,也在探求相关关系中的因果要素。我放弃第一份工作的原因之一是厌倦了如此确定的明天:一个任务发出去,大概能预测到哪些环节会出问题,只要不去 follow,这些环节十有八九会出问题。

  解析完这三大观点,下面是我对大数据理论的一些疑惑。大数据是目前风行的反馈经济中的重要一环,在金融、互联网行业的应用最为广泛,而这些行业都是大家所认为的高薪领域。很多时候我就在想,所谓无形的手所产生的趋势究竟是不是无形的。比如几家公司强推一个概念,说这是趋势,不久就真的变成趋势了。我们身边活生生的'例子就是天猫的双十一和京东的618,一个巨头开路,无数人跟风,自然就生造出购物节,至于合理不合理,追究的意义也不大,因为很多事情是没有可比性的。这和没有强制控制中心的蜂群思维又不一样。

  1 数据独裁。个人意志将受制于集体意志,个人的自由在哪里?用大数据预测来惩罚人的行为又确定的违反了无罪推定的原理。

  2 所有数据都来源于过去,大数据分析出来的确定性结果是否意味着我们在重复过去?拉普拉斯的决定论已经被认为是错误的,爱因斯坦也说过“上帝不会跟宇宙玩骰子”,但霍金不同意这句话。