人们搜寻信息这一行为本身就是信息
他们何时何地搜寻真相、格言、笑话、地点、人物、事件或帮助,
可以在很大程度上反映他们的真实想法、欲望、恐惧和职业,
其程度之高是任何人都想象不到的。
过去的半个世纪被称为信息时代,而过去的十年,在我看来,可以被称作大数据时代。网络的普及、计算机储存性能和运算能力的提升,让数据称为了如今最廉价,但也最有价值的物品。在我读这本书之前,对于数据想到最多的是用来训练AI的数据集。然而,当我合上这本书的时候,我意识到数据已经或即将对各行各业产生深远的影响,数据分析这么学科,将在不远的将来,发挥巨大的作用。
¶摘下面具的网民
在很小的时候,我接触网络时自己就被告知,网络是一个虚拟的世界,没有人知道屏幕背后的人究竟是谁。然而恰恰是这一层匿名的窗户纸,让一个人在网络上的行为、言论有着更高的可信度。这一点是《人人都在说谎》这本书的立足点,其中的例子,无一不在说明一个问题:在现实生活中,我们都是伪君子,在网络中的才是真实的自我。
作者赛思举的第一个例子就是2016年美国总统大选。特朗普的意外当选,在赛思看来,与他之前对奥巴马的研究中所发现的暗藏的种族歧视有关。
特朗普拥趸最多的地区就是“黑鬼”一词的谷歌搜索量最多的地区
08年时,当奥巴马成为总统时,表面上大部分人都在赞扬奥巴马或宣扬其当选的历史性意义,然而在网络上,一些州关于种族歧视的谷歌搜索量却骤增。这些州在地图上,与8年后特朗普的支持州高度重合。
其他的通过谷歌搜索数据展示的真相,诸如有多少美国男性是同性恋者?经济萧条是否会增加虐童案的数量?脸谱网上的学生是否在撒谎?
在脸谱网上,我们展示的是有教养的自我,而不是真实的自我
这些例子都十分生动,而且都用数据揭穿了人们的谎言。这也是我读这本书前半部分,感觉最有趣的地方。
¶大数据是如何让人们对互联网欲罢不能的
在这本书后半部分,关于大数据的应用中,我觉得最重要的一个内容是A/B测试。
A/B测试,通俗来说,就是(转自百度):为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。
按照书中的话来说,这是一种“开销极低、操作简易的黄金标准测试”。通过测试得到的结果,新闻媒体可以知道什么样的文章标题可以带来更多的点击量,网站设计者可以了解怎样的网页排版更吸引人,流媒体APP知道推荐什么样的视频可以留住使用者。
赛思引用《欲罢不能》一书中的那句话让我深有同感:
屏幕另一端有上千人正在瓦解你的自律。
¶大数据并非万能
既然大数据可以揭露那些不为人知的真相,可以窥探用户的使用习惯,那么大数据是否是万能的?像这样肆意地使用大数据,是否会有问题?
对于第一个问题,答案自然是:不能。不止一个人曾想过用大数据来预测一些人类社会的事件,比如说股票的走势、发展中国家的未来投资机遇等等。但这些尝试几乎都以失败告终,因为当我们用数据来寻找各种变量之间关联时,会遇到一个无法逾越的问题——纬度的诅咒。
纬度的诅咒就是当变量较多而观察(测试数据)较少时,某一些变量会“幸运”地与目标出现关联性,然而这个关联性往往不具有现实意义,一旦观察数量变多,或者变量减少之后,这种关联性就会自然消失。
对于第二个问题,答案是肯定的。大数据虽然力量巨大,但其背后,存在着道德问题。已经有不少文艺作品表达过对于信息时代利用数据预测人类行为的担忧。如果政府通过大数据,预测一个人很有可能实施犯罪,警方是否应该立即逮捕TA?即使TA并没有做出犯罪的行为?如果赌场利用大数据,让赌徒栽更多的钱在他们的赌场上,是否合法?当贷款机构根据数据分析来决定是否给借贷人放贷,是否会给整个市场带来影响。这些问题的答案,《人人都在说谎》没有回答,因为这些案例先前从未出现过。
¶结语
这本书算是一本介绍数据科学的科普读物,没有太多晦涩的术语,内容很有意思。读完这本书后,我越发深信未来是大数据的时代。无论是自然科学、计算机科学,还是社会科学,都将越来越依赖无穷无尽的数据集。那些数据在未来应用的畅想,有的令人期待万分,有的则让人毛骨悚然。我会畏惧一些大数据的应用,并非因为它们有悖于道德,而是因为应用数据的人会撒谎。也许我现在的行为,已经被他人记录、分析、利用,但我可能到死都不会知道。数据不会撒谎,但人会撒谎,人人都在说谎。