要闻 宏观 金融 证券 产业 公益财经 地产 能源 健康 汽车 评论 人道慈善

https://uploads.chinatimes.net.cn/article/202204/20220408190741CTYpKuCyCq.jpg

在数据驱动的时代,如何分辨并指斥胡扯?

卡尔·伯格斯特龙、杰文·韦斯特

当今社会胡扯现象随处可见,令人不胜其烦。政治家无视事实信口开河,科研人员把发新闻稿视为科学研究,硅谷的初创公司将胡扯发展到了艺术的高度,大学奖励的是胡扯而不是分析思维,大多数管理活动似乎只不过是一个对胡扯进行编排组合的复杂过程。心怀不轨的广告商朝我们眨眨眼,诱导我们和他们一起把胡扯进行到底,而我们也眨眨眼表示回应——与此同时,我们就会放松警惕,对他们奉送的修饰过的胡扯信以为真。胡扯在具体问题上误导我们,破坏我们对一般信息的信任,因此会污染我们这个社会。尽管能力有限,但我们希望可以通过本书,对这一现象给予回击。

哲学家哈里·法兰克福认为,胡扯现象无处不在是我们这个时代的一个典型特征。他在他的大作《论胡扯》的开头指出:

我们文化的一大特点就是胡扯太多。人人都知道,而且人人都有份,但我们往往会把这种情况视为理所当然。(不过,)我们不清楚胡扯是什么,为什么如此之多,也不知道它有什么作用。我们没有认真探讨胡扯的真正含义。换句话说,我们没有形成理论。

要彻底消灭胡扯,就需要准确地了解它是什么。这就有点儿棘手了。

首先,“胡扯”(bullshit)既是名词也是动词。我不仅听腻了你的胡扯(名词),也可以反过来跟你胡扯(动词)。这很好懂。简单地说,胡扯作为动词就是指说一些胡扯的话。

但是,“胡扯”这个名词到底指的是什么呢?和许多人试图用哲学概念匹配日常语言的努力一样,试图为它制定一个泾渭分明的定义的努力也必然徒劳无功。因此,我们将从例子着手,描述一些可以称之为胡扯的东西。

大多数人都认为自己擅长发现胡扯。当胡扯以修辞或花哨的语言形式出现(我们称之为老派胡扯)时,他们这样想也许没有错。例如:

我们的共同使命是发挥双方解决方案的作用,使未充分利用的人力资源组合机会得到充分利用。(换句话说,我们是短期工中介公司。)

我们存在的意义在于传播。要开始这个神话,就要成为它的一部分。(我们可以把这称为新时代的老派胡扯。)

我们像先辈一样,怀着坚定的思想和满腔的热忱,眼光掠过伟大祖国的无垠疆土,重新点燃我们共同命运的火花。(算了吧,你还是说说如何让我们这个地区重新得到更多的就业机会吧。)

老派胡扯似乎并没有消失,但随着新派胡扯的兴起,它似乎没有那么引人注目了。新派胡扯使用数学、科学和统计语言来制造严谨准确的印象。它们利用数字、统计数据和数据图表粉饰那些可疑的论断,给它们披上了一层合理的外衣。新派胡扯可能会采用下面这些形式:

根据货币汇率加以调整后,我们表现最好的全球基金在过去9年中有7年跑赢了市场。

(回报率到底是如何调整的?该公司有多少基金未能跑赢市场,相差多少?就这个问题而言,是某一只基金在9年中有7年跑赢了市场,还是在这7年中每年都有一只不同的基金跑赢了市场?)

虽然没有统计意义(p = 0.13),但我们取得的结果突出表明了我们靶向治疗肿瘤的临床意义(5年生存率比为 1.3),并对当前的治疗范式提出了挑战。

(如果一个结果没有统计意义,那么讨论它的临床意义又有什么意义呢? 5年生存率是这种特定癌症的相关指标,还是说大多数患者在3年内死亡?为什么我们要认为这“对当前的治疗范式提出了挑战”?)

该团队的卷积神经网络算法可以从一个由人类代谢组、转录组和蛋白质组构成的多层网络中提取底层控制逻辑。

(什么是多层网络?这些不同的“组”之间的连接有什么重要意义?如何测量?作者所说的“控制逻辑”是什么意思?我们如何知道这些系统真的是通过一个底层控制逻辑连接到一起的?我们如何确证这种方法可以提取这个底层控制逻辑呢?)

我们的系统筛查显示,34%的有行为障碍的二年级学生承认在过去一年里至少闻过一次神奇马克笔。

(这个数据很重要吗?如果真的很重要,那么闻马克笔这个行为是“行为障碍”的原因还是结果?有多少没有行为障碍的二年级学生承认闻过马克笔?也许这个比例更高!)

新派胡扯之所以特别有效,是因为我们中的许多人觉得没有资格质疑以数量形式呈现的信息。这让那些新派胡扯者们正中下怀。要反击,就必须学会在合适的时机,以合适的方式质疑这些言论。

在教学中,我们一直在教导学生如何对数据进行逻辑和定量思考。本书源于我们在华盛顿大学教授的一门叫作“Calling Bullshit”的课程,目的是说明一个事实:即使你不是一名专业的统计学家、计量经济学家或数据科学家,你也能批判性地思考那些定量论证;无须大量数据和数周时间,也能看穿胡扯。只要有基本的逻辑推理,在需要的时候,再辅以通过搜索引擎轻松获取的信息,通常就足以解决问题了。

作为公民,我们肯定希望可以帮助人们发现并驳斥胡扯。这不是左翼或右翼意识形态的问题;这两个阵营的成员都证明了自己善于制造和传播错误信息。相反(尽管有夸大其词的危险),我们认为拥有足够的辨别胡扯的能力对民主的存续来说至关重要。民主一直依赖于选民的批判性思维,但在当今这个时代,社交媒体的传播导致选举过程深受假新闻和国际干预的影响,这同时也赋予了批判性思维前所未有的重要地位。在2016年12月的《纽约时报》专栏文章中,马克·加莱奥蒂总结了应对这种信息战的最有效防御措施:

美国政府不应该试图直接打击每一次泄密,而是应该教育公众,让他们知道自己什么时候被操纵了。通过学校、非政府 组织和公共服务活动,美国人应该掌握成为精明的媒体消费者所必需的基本技能,包括核实新闻的真实性、识别说谎图片的能力。

本书两名作者都是拥有数十年数据科学、统计学和相关学科教学经验的公立大学教师,对于如何教授这种思维并不陌生。我们认为,批判性思维并不要求我们在政治上偏向某一方。你可能在多个问题上(例如联邦政府的最佳规模,政府介入我们私人生活的可接受程度,或者国家在世界舞台上应该如何表现自己)与我们的观点不一致,但没有关系,我们只是想帮助持各种政治观点的人当面指斥胡扯。因为我们认为,当选民能够看穿来自各个方面的胡扯时,民主才是最健康的。

我们不是在建立一个平台,让我们可以就不喜欢的事情胡扯。因此,本书中的例子很少是我们所知道的最恶劣的例子,更不可能是那些让我们愤怒不已的例子。相反,我们选择的例子都是为了达到教学目的,找出特定的陷阱,突出适当的应对策略。我们希望你通过阅读和思考,学会当面指斥胡扯。

一个多世纪前,哲学家约翰·亚历山大·史密斯在对牛津大学新生发表演讲时说:

你在学校学到的东西对你(将来的生活)几乎毫无用处,但它有一个好处:只要你认真学习,方法得当,那么在别人胡说八道的时候你会有所察觉。我认为,这即使不是教育的唯一目的,也是它的一个主要目的。

尽管取得了一些成功,但我们认为从这个角度看,高等学校STEM学科(科学、技术、工程和数学教育)的教学存在一些问题。一般而言,我们在操作方法教学,也就是在引导学生学习如何操作矩阵、转染细胞、运行基因组扫描和运用机器学习算法这些方面做得很好。但这种关注事实和技能的做法是以牺牲批判性思维艺术的训练和实践为代价的。在人文和社会科学领域,学生们被教导要让相互冲突的观点相互碰撞,要与不一致的观点做斗争;但在STEM领域,学生们解决悖论、调和相互矛盾的证据、批判错误论断的机会非常少。因此,大学毕业生往往精于质疑言语论证过程、识别逻辑谬误,但令人惊讶的是,在面对通过数据提出的论断时他们往往会默然接受。当然,中学教育也是如此。现在的学生可以坦然拒绝政治、伦理、艺术和哲学论断中的胡扯,但如果STEM教育采用在人文学科中已经习以为常的质询式教学方式,培养出来的学生就能以同样驾轻就熟的方式,拒绝统计报表和人工智能分析中的胡扯。

出于若干原因,我们在接下来的章节中大量引用了科学和医学研究中的例子。我们热爱科学,这也是我们的专长所在。科学依赖于我们在这本书中提到的定量论证。在人类创立的所有体系中,科学似乎最不应该受到胡扯的影响——但事实并非如此。我们认为,公众对科学的理解受到了诸多因素的妨碍,而理解正确与否,对于选民能否做出明智的决定具有至关重要的意义。本书的目的就是找出症结所在。

但我们必须着重指出,我们绝不否认科学是理解物理世界的一个成功的标准手段。不管我们抱怨什么,不管我们发现了什么偏见,不管我们遇到什么问题,不管我们说了什么废话,科学最终还是会成功的。有了科学的支持,我们才能乘坐飞机环游世界,通过视频电话交谈,移植器官,根除传染病,理解大爆炸后的早期阶段、生命的分子基础等现象。

新的信息技术已经改变了我们的科学和社会交流方式。随着信息获取途径得到改善,信息超载的现象愈演愈烈。我们希望本书能帮助你面对冲击,将事实与虚构区分开来。

(本文摘自《拆穿数据胡扯》一书,该书作者为(美)卡尔·伯格斯特龙,(美)杰文·韦斯特,译者为胡小锐)

责任编辑:方凤娇 主编:程凯