读《大数据时代》

吴诗涛 2021-10-17 [读后感]

[1]维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger),肯尼思·库克耶(Kenneth Cukier)著;盛杨燕,周涛译.大数据时代 生活、工作与思维的大变革[M].杭州:浙江人民出版社.2013.

译者序

与其说大数据让我们重视相关胜于因果,不如说机器学习和以结果为导向的研究思路让我们变成这样。

认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里边内禀的实用主义的魅影,绝非大数据自身的诉求。从小处讲,作者试图避免的“数据的独裁”和“错误的前提导致错误的结论”,其解决之道恰在于挖掘因果逻辑而非相关性;从大处讲,放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始。

引言 一场生活、工作与思维的大变革

真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。

人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。难怪人们会抱怨信息过量,因为每个人都受到了这种极速发展的冲击。

想象一下,现在我们能每秒钟播放24幅不同形态的马的图片,这就是一种由量变导致的质变:一部电影与一幅静态的画有本质上的区别!大数据也一样,量变导致质变。

大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。

大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组件社会的方法:①在大数据时代,我们可以分析更多的数据,有时候甚至可以处理某个特别现象相关的所有数据,而不再依赖于随机采样;②研究数据如此之多,以至于我们不再热衷于追求精确度;③第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。

适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。

数据化意味着我们要用一切太阳底下的事物中汲取信息,甚至包括很多我们以前认为和“信息”根本搭不上边的事情。

大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度,正是主宰这场游戏的关键。

第一部分 大数据时代的思维变革

第1章 更多(不是随机样本,而是全体数据)

采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。

随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。

随机采样就像是模拟照片打印,远看很不错,但是一旦聚焦某个点,就会变得模糊不清。

大数据是指不用随机分析法这样的结晶,而采用所有数据的方法。

第2章 更杂(不是精确性,而是混杂性)

当我们试图扩大数据规模的时候,要学会拥抱混乱。

大数据基础上的简单算法比小数据基础上的复杂算法更加有效。(The Unreasonable Effectiveness of Data. Peter Norvig.)

大数据不仅让我们不再期待精确性,也让我们无法实现精确性。

错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。

要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。

很少有数据完全符合预先设定的数据种类。而且,我们想要数据回答的问题,也只有在我们收集和处理数据的过程中才会知道。

第3章 更好(不是因果关系,而是相关关系)

知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。

亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。

我们现在拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选择一个关联物或者一小部分相似数据来逐一分析了。

大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。

通过找出一个关联物并监控它,我们就能预测未来。

当收集、存储和分析数据的成本比较高的时候,应该适当地丢弃一些数据。

与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。很多时候,这种认知捷径知识给了我们一种自己已经理解的错觉,但实际上,我们因此完全陷入了理解误区之中。

事实上,就是因为不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供如此多新的深刻洞见。

第二部分 大数据时代的商业变革

第4章 数据化(一切皆可“量化”)

信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息上)。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。

数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。

当文字变成数据,它就大显神通了——人可以用之阅读,机器也可以用之分析。

预测给我们知识,而知识赋予我们智慧和洞见。(莱维斯)

有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。

今天,我们生活在一个计算型的社会,因为我们相信世界可以通过数字和数学而获得解释。我们也相信知识可以跨越时空。事实上,我们对书写还存在着一种根深蒂固的敬畏。明天,我们的下一代,一群被“大数据观念”陶冶长大的家伙,会发自肺腑地认为“量化一切”并从中学习对于社会是至关重要的。把各种各样的现实转化为数据,对今天的我们而言也许是新奇而有趣的,但在不久的将来,这将变成如同吃饭睡觉一样与生俱来的能力——这又让我想起来“数据”这个词语的拉丁语原意。

第5章 价值(“取之不尽,用之不竭”的数据创新)

我们所处的时代之所以与众不同,是因为数据的收集不再存在固有的局限性。技术已经发展到一定程度,大量信息可以被廉价地捕捉和记录。数据经常会得到被动地收集,人们无须投入太多精力甚至不需要认识这些数据。而且,由于存储成本的大幅下降,保存数据比丢弃数据更加容易,这使得以较低成本获得更多数据的可能性比以往任何时候都大。

不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。

数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。

随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身也比单个总和更大。

数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。

第6章 角色定位(数据、技术与思维的三足鼎立)

大数据价值链的三大构成:①基于数据本身的公司;②基于技能的公司;③基于思维的公司。

如果你想成功,你不应该成为一个普通的、可被随意替代的人,你应该成为稀缺的、不可替代的那类人。数据非常之多而且具有战略重要性,但是真正缺少的是从数据中心提取价值的能力。这也就是为什么统计学家、数据库管理者和掌握机器理论的人是真正了不起的人。(Hal Varian)

所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。

如今的大数据先驱者通常有着交叉学科背景,他们会讲这些知识与自己所掌握的数据技术相结合,应用于广泛的领域之中。

现今,我们正处在大数据时代的早期,思维和技能是最有价值的,但是最终,大部分的价值还是必须从数据本身中挖掘。因为在未来,我们可以利用数据做更多的事情,而数据拥有者们也会真正意识到他们所拥有的财富。因此,他们可能会把手中所拥有的数据抓得更紧,也会以更高的价格将其出售。继续用金矿来打比方:只有金子才是真正值钱的。

行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。

与时俱进才是在职业领域取得成功的必备技能,这样的员工能随时满足公司对他们的期望。

数据能够优化生产和服务,甚至能催生新的行业。

第三部分 大数据时代的管理变革

第7章 风险(让数据主宰一切的隐忧)

大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增来改变现状。

运用大数据预测来判断和惩罚人类的潜在行为。这是对公平公正以及自由正义的一种亵渎,同时也轻视了决策过程中深思熟虑的重要性。

大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。

第8章 掌控(责任与自由并举的信息管理)

管理变革:①个人隐私保护,从个人许可到让数据使用者承担责任;②个人动因VS预测分析;③击碎黑盒子,大数据算法师的崛起;④反数据垄断大亨。

在大数据时代,关于公正的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志。简单地说,就是个人可以并应该为他们的行为而非倾向负责。

大数据管理的基本支撑是保证我们依然是通过考虑他人的个人责任对其进行评判,而不是借助“客观”数据处理去决定他们是否违法。只有这样,我们才是把其当作人来对待——当作有行为选择自由和通过自主行为被评判的人。这就是大数据推论到今天的无罪推定原则。

大数据的运作是一个超出我们正常理解的范围之上的。

结语 正在发生的未来

有些历史最悠久的做事方法并不是最好的。

能置身于信息流中央并且能收集数据的公司通常会繁荣兴旺。有效利用大数据需要专业技术和丰富的想象力,即一个能容纳大数据的心态,但价值的核心归功于数据本身。有时,重要的资产并不仅仅是能清楚看到的信息,更是从人们与信息交互中收集到的数据废气,聪明的公司可以用它来改善现有的服务,或推出全新的服务。

当我们给一个人判定自认(并给予惩罚)时,必须牢记人类意志的神圣不可侵犯性。人类的未来必须保留部分空间,允许我们按照自己的愿望进行塑造。否则,大数据将会扭曲人类最本质的东西,即理性思维和自由选择。

在一个预测的时代里,人类的自由意志神圣而不可侵犯,这一点不可轻视。我们不仅需要承认个人进行道德选择的能力,还要强调个人应为自我行为承担责任。社会则必须采取新的保护措施:接受一种新的职业人,也就是数据算法师,对大数据进行深度分析。如此,因为大数据而变得可预测的世界,才不会陷入一个用一种未知取代另一种未知的困境,不会变成一个黑匣子。

就算大数据无法教会我们所有事情,只要能保住我们表现更加、更富效率、取得效率,就算缺乏深入理解也是很有用的了。一贯如是地坚持下去才有效力。即使你不明白你为什么付出的努力得不到回报,但相比不努力,你要明白你已经在改善事情的截距了。纽约的弗劳尔和他的“小伙子们”也许并没有圣人圣明的判断力,但他们确实在拯救生命。大数据不会即刻提高效率,但经受住时间的考验后,它将生出智慧的结晶。

人类最伟大之处正是运算法和硅片没有揭示也无法揭示的东西,因为数据也无法捕捉到这些。并不是“人类最伟大的东西是什么”,而是“什么不是人类最伟大的产物”——真空、人行道上的裂缝、未说出口的话还是未想到的事?

大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。