在上一章里我们讨论了概率趋势、概率思维和统计推理的重要性。本章将沿袭这一话题,重点强调人们理解随机性和偶然性这两个概念时遇到的问题。我们将强调,由于没有领会偶然性是如何始终贯穿于心理学理论中的,人们常常误解了研究对于临床实践的贡献。
我们大脑的进化始终以这样一种方式,就是让我们能够不懈地寻求世界中的各种模式。我们寻求身边事物的关系、解释及其背后的意义。心理学家已经对这种强烈倾向进行了研究。这是人类智力的典型特征,而且能够解释人类在信息加工和知识获得过程中表现出来的令人惊叹的诸多能力。
然而,人类认知过程的这种极具生存适应性有时也会反戈一击。例如,环境中没有什么可以进行概念化的东西,可我们还是还一味地去寻求概念性的理解,这就是一种不良适应。那么,到底是什么在人类认知这一最与众不同的方面制造麻烦呢?是什么打乱了我们对结构的寻求并阻碍了我们对事物的理解呢?你猜对了,是概率。说得更具体些,是偶然性和随机性。
偶然性和随机性是我们周围环境不可分割的一部分。偶然性和随机性的规律支配着生物进化和基因重组的机制,物理学也运用关于偶然性的统计定律来解释物质的基本结构。自然界发生的很多事情,都是系统性以及可解释的因素与偶然因素共同作用的结果。再回想一下前面谈到的例子:吸烟导致肺癌。生物学上系统的、可解释的方面将吸烟和某一疾病联系起来,但这并不表示所有吸烟者都会患肺癌,这种趋势是概率性的。或许最终我们能解释为什么有些吸烟者不会患肺癌,但在现阶段,这种变异性必须归因于大量偶然性因素,是这些因素决定一个人是否患某一疾病。
这个例子说明,当一件事取决于偶然性时,并不一定表示它是不确定的,只是说它目前是无法确定的。掷硬币是偶然事件,但并不是说在对抛掷的角度、硬币内的金属成分以及许多其他变量加以测量之后,也不可能确定其抛掷的结果。实际上,这些变量确实决定了掷硬币的结果。但是,我们称掷硬币为随机事件,是因为在每一次抛掷时,我们没有比较简易快捷的方法来测量这些变量。一次抛掷的结果并不是严格意义上的不确定,它只是在当下无法确定而已。
世界上的许多事件不能以系统性的因素来完全解释清楚,至少现在还不能。然而,当一个特定的现象没有现成的系统解释的时候,我们头脑中的概念寻求“设备”往往仍在隆隆运转,试图将无意义的理论强加于原本随机的数据。心理学家曾对此现象进行了实验研究。一个实验情境中,要求被试观察一系列在多个维度上有所区别的刺激物,并告诉他们其中的一些刺激物属于一类,而其他的则属于另一类,被试的任务是去判断每一个刺激物属于这两类中的哪一类。实际上,刺激物是研究者随机归类的,因此除了随机性,并没有任何其他规律。但是,被试很少敢做随机猜测。相反地,他们通常会绞尽脑汁,虚构一个复杂的分类方法,并对他们给这些刺激物所做的分类做出解释。
同样地,形形色色的“预谋论”通常也需要一套又一套复杂的说辞去解释那些预谋论者拼命想要理解的、原本是由随机因素导致的事件。这一现象十分典型,甚至各类权威人士在其专业领域内的工作也往往如是。许多金融分析师的思维方式就体现了这一谬误。他们通常会对股票市场价格的每一次小的波动都编造出精细的解释,而实际上这种变化大多只是随机波动而已(Malldel, 2004; Taleb, 2001)。然而,股票市场分析师总是不断对客户暗示他们可以(也许他们也相信自己可以)“征服市场”,即使当大量的证据表明他们中的大部分其实是做不到这一点的。过去几十年中,如果你购买了标准普尔指数中的所有500种股票,然后放着不去管它(我们称之为“傻子策略”的办法——去买一种依照这一指数的互惠基金),那么今天你获得的回报会比2/3的华尔街股票经纪人为他们的顾客所赚的还要高(Egan, 2005; Hulbert, 2006; Malkiel, 2004; Updegrave, 1995),你的成绩也会打败80%订阅费已经涨至每年500美元的财经通讯杂志(Kim, 1994)。
但是,我们要如何看待那些确实打败了傻子策略的经纪人呢?你可能想知道这是否意味着他们具有某些特殊的才能。我们通过设想这样一个实验来回答这个问题:有100只猴子,每只猴子手中握有10支飞镖,它们都向一面写有标准普尔500指数的墙上掷飞镖,飞镖扎中的股票就是那年要买的股票。那么,一年后它们的业绩会是怎么样的呢?有多少只猴子能打败标准普尔500指数?恭喜你答对了。大概有一半的猴子会。那么,你会不会愿意付钱给这一半打败标准普尔500指数的猴子,授权它们在下一年帮你选股呢?
这个关于财经预测的例子的延伸,证明了原本纯粹随机的事件会因怎样的逻辑而看起来像是由可以预测的因素造成的(Fridson, 1993; Paolos, 1988)。假想你收到一封信,信中告诉你有这样一份关于股票市场预测的通讯。这个通讯并不收费,只是要求你试试照着他们的建议去买股票,然后看看它的预测灵不灵。它告诉你IBM的股票会在下个月攀升。你把这份通讯随手一扔,但是你确实注意到在下一个月里IBM股票果真涨了。如果你曾读过一本与本书的内容类似的书,你会觉得这是稀松平常的事情,仅会将其视为一次侥幸的猜中。后来你又收到另一份来自同一家投资咨询公司的通讯,该通讯说IBM股票会在下个月下跌,当股票确实跌了的时候,你仍将其视为侥幸,但是这一次你可能就有点儿好奇了。当这家公司寄来第三份通讯,预测IBM下个月会再次下跌时,你发现自己对这几页财经内容的关注度提高了。继而你发现该通讯又一次做出了准确预测,IBM这个月确实又下跌了。当来自这家公司的第四份通讯说IBM下月会涨,而且也确实涨了时,你难免会觉得这个通讯真还挺神,而情不自禁地想花29.95美元去订一年这本如此有价值的通讯。这种诱惑难以抵挡,除非你能想象:此时在一个简陋的地下室里,某人正在准备下周要寄出的1600份通讯,这些通讯会按电话黄页上的1600个地址发出,其中800份预测IBM下月上涨,800份预测下跌。当IBM在下个月真的涨了,公司就继续把通讯只发给上月接收到正确预测的800位“客户”(当然,其中还是400份预测涨,另外400份预测跌)。然后,你可以想象,这个“锅炉房”——可能还包括在背后煽风点火、辅助造势的电话营销骗子——正在向第二周接收到正确预测的400位客户发送第三个月的预测通讯(还是200份预测涨,200份预测跌)。是的,你就是连续四次收到正确的随机预测信息的100个幸运儿之一!这100个“幸运儿”中的大多数会为了能继续收到通讯而支付29.95美元。
现在看来这就像是一个玩弄众人于股掌之上的可怕骗局。实际也是如此。而当那些“受人尊敬”的财经杂志或电视节目给你推荐“连续四年击败一半以上对手的股票经纪人”时,情况也好不到哪儿去。请回想一下猴子掷飞镖的场景,设想这些猴子是年年选股的股票经纪人。很明显,第一年他们之中有50%会击败他们的对手。第二年,这50%的人中又有一半——按随机水平来说——会击败其对手,即25%的经纪人能连续两年击败他们的对手。之后第三年又有一半——随机水平——能击败对手,即总人数的12.5%连续三年击败对手。最终到第四年,又会有这些人的一半(总人数的6.25%)能击败自己的对手。因此,100只猴子中大概有6只能取得像财经节目和报纸所说的“连续四年击败了其他的经纪人”的骄人成绩。那么,这6只击败了一起扔飞镖的同伴的猴子(正如你所见,也击败了大多数现实生活中的华尔街经纪人;参见Egan, 2005; Malkiel, 2004)的确有资格在电视节目“华尔街一周”中亮相,你觉得呢?
人们有解释偶然事件的倾向,这一现象在心理学的研究中称为错觉相关。当人们相信两类事件在通常情况下应该一起发生时,就会认为自己频繁地看到了同时发生的现象,甚至当这两类事件的同时出现是随机的,并不比任何其他两个事件同时发生的频率更高时也是如此。总之,即使是面对随机事件,人们也倾向于看到他们所期望的联系(Nisbett & Ross, 1980; Stanovich, 1999, 2004)。他们在原本没有规律的地方看到了规律。
许多有控制的研究(如King & Koehler, 2000;Stanovich & West, 1998)都证明,当人们头脑中已经预设了两个变量相互关联的想法时,他们甚至能够在两个变量根本毫无关系的数据中发现联系。不幸的是,这一发现在现实生活中也广泛存在,并对人们的生活产生负面影响。例如,许多从事心理治疗工作的人一直都对罗夏墨迹测验的效度深信不疑。这个著名的墨迹测验要求被试对一张白纸上的墨迹做出反应。因为这一墨迹缺乏结构,所以其理论是,人们会以自己对模糊情境的典型反应来对这些墨迹做出反应,从而揭示其“潜藏的”心理特质。这种测验也被称为投射测验,因为它假定被试会将他们潜意识的内心活动和感受投射在墨迹上。然而问题是,没有任何证据表明当罗夏测验作为一个投射测验而使用时,提供了任何额外的诊断价值(Garb, Florio, & Grove, 1998; Lilienfeld, 1999; Lilienfeld et al., 2000; Wood, Nezworski, & Stejskal, 1996; Wood, Nezworski, Lilienfeld, & Garb, 2003)。对罗夏测验的信心是源自于错觉相关这一现象。临床心理医生从病人的反应模式中看到了联系,是因为他们相信本来就有这种联系,而不是真的从反应模式中观察到了什么联系。
心理学家雷·海曼(RayHyman)讨论了人们喜欢在原本没有模式地方的寻找模式的倾向:
我们不得不运用自己原有的知识和期望以获得对世界万物的理解。在大多数的一般情境中,这种对于知识背景和记忆的运用让我们正确地阐释一些主张,并对此提供必要的推论。但这一强有力的机制在原本没有承载任何信息的情境中偏离正轨。有些本是能够轻而易举就识别出来的随机性噪音,我们却不懈地要从中寻找意义(Hyman, 1981, p.96)。
在我们的生活中,许多人际交往里都包含大量的偶然成分:“互不相识的男女约会最终促成了婚姻;取消约谈而丢了工作;误了班车而遇到了高中的老同学,等等。认为生活中每一件偶然的小事都需要精细的解释,这种想法是错误的。但是,当偶然事件确实会产生重要的后果时,人们不免要建构一些复杂的理论去解释它们。
试图去解释偶然事件的倾向可能源于我们深切地渴望相信自己是可以控制这些事件的。心理学家埃伦·兰格(EllenLanger)研究了控制错觉这一现象,指的是人们有一种倾向,愿意相信个人能力可以影响偶然事件的结果。在一项研究中,两个不同公司的雇员向同事兜售彩票,一些人只是简单地塞到手里,而另一些人则可以自行抽取。当然,在随机抽奖的事件中,彩票是自行抽取的还是派发的没有什么区别,中奖率都是一样的。但是,第二天,当这两个雇员试图向这些同事买回彩票时,自行抽取彩票的被试对彩票的要价是被派发者的四倍!在另外几项实验研究中,兰格证实了这一假设,之所以出现这些结果,是因为人们不能接受个人因素无法影响偶然事件这一事实。这一错觉广泛存在的证据来自于美国各州发行彩票的经验。这些州充斥着教人们如何“征服”彩票的伪科学书籍。这类书之所以畅销,是因为人们不懂得随机性的含义。事实上,自从20世纪70年代中期新泽西州发明了一种新的彩票售卖方式之后,美国各州才爆发购买彩票的热潮。这种方式就是让购买者可以自行刮奖或自行挑选号码(Clotfelter & Cook, 1989; Thaler, 1992,p.138)。用这种售卖方式来进行的抽奖活动通常叫做“参与性抽彩”,而这类参与性抽彩正是利用了当时兰格研究的控制错觉现象:人们错误地相信他们的参与行为能够决定随机事件。
还有一些心理学家则研究了另一个与此相关的现象,该现象被称为公平世界假设,它是指人们倾向于相信自己是生活在一个公平的世界里,在这里每个人都得到他们应得的东西(Hkfer & Begue, 2005)。研究者发现了一些实验证据,证明了公平世界中存在一种“罪有应得”的信念:人们会鄙视那些偶然不幸的受害者。为偶然事件寻求解释的倾向导致了这一现象。人们很难相信一个完美无瑕的或是道德修养高的人会因为偶然事件而惨遭不幸。固然我们想要相信好人有好报、恶人有恶报,但是,偶然性是不偏不倚的,它以完全不同的方式运行:好事坏事都以相同的概率发生在不同人身上。
当公平世界假设这一信念被推向极致时,会催生出一些非常有害或是不人道的教条。且看20世纪80年代早期美国教育部一名官员的逻辑,他说,残疾人“错误地认为生命中的巧合令他们偶然受到惩罚,实际并非如此。所有发生在某个人成长过程中的某个点上的事,没有一件不是由他本人所招致的……这句话听上去好像很不公平,但是一个人所处的外部环境确实是与他内在心灵的发展相一致的”(Gilovich, 1991, p.l43)。正如吉洛维奇所指出的,“这真不该是一个想进入教育部高层的官员所持有的哲学,教育部本应是负责给予残疾人士同等教育机会的机构”(pp.143-144)——但如果我们拒绝将这类后果归为偶然性,结果必然会导致这种不人道的哲学。
公平世界假设中所体现的对于偶然性的错误理解,也助长了其他一些错误的民间信念,导致人们容易看到虚假相关。例如,我们在第6章中提到过,“盲人有非常敏锐的听觉”就是一个错误的信念,这个错误信念可能会一直流传下去,因为这种联系能体现“老天很公平”,而这正是人们希望看到的。
在心理学中也存在这样的倾向:研究者试图解释一切,希望其理论不仅能解释行为中系统的、非随机的成分,还要能解释任何细微的变异。这种倾向导致了不可证伪的心理学理论的泛滥,既包括个人提出的理论,也包括那些看似科学的理论。“心理历史学”的奉行者常常犯下此类错误。一个著名人物生命中的每一个细小的变化及转折,都经由精神分析学派的理论在心理历史中得以诠释。大多数心理历史事件存在的问题是,不是它们解释得太少,而是它们解释得太多。这一研究方法的奉行者很少承认一个人的一生是由许多偶然因素决定的。
对于想要运用心理学知识的外行人来说,理解偶然性这一因素的作用是非常重要的。受过正规训练的心理学家承认他们的理论只能解释人类行为变化的一部分而非全部,他们会坦然面对偶然因素。但是,那个在奥普拉秀中出现的(见第4章开头)能对每一个个案及人类行为的每个细节做出解释的嘉宾,引发的不是崇拜而是质疑。真正的科学家不惧怕承认自己的无知。总之,评价心理学主张的另一实用法则就是:在接受对某个事件的复杂解释之前,先想一想偶然因素在其中扮演了什么角色。
为纯粹偶然的事件寻求解释的这种倾向,也导致我们对许多巧合事件的性质产生误解。许多人认为巧合需要特别的解释,他们不理解巧合的发生并不需要偶然性之外的因素,巧合并不需要特别的解释。
《韦氏新世界字典》(Webster\'s World Dictionary)里把巧合定义为:“相互关联或相同的事件意外地、令人不可思议地同时出现了。”鉴于这本字典把意外定义为“偶然地出现”,所以这个定义不存在问题。巧合只是相关事件偶然地同时出现。不幸的是,许多人并不这样解释巧合。那些在事件中寻求模式和意义的倾向与巧合“不可思议的”的特性结合在一起,让许多人忘记他们可以用偶然这一因素来解释巧合,反而为理解这一现象寻求特别的解释。下面讲的这个故事你一定已经听过无数次了:“那天我正坐在那儿寻思,我好久没给德克萨斯州的老比尔叔叔打电话了,紧接着电话铃就响了,你猜怎么着!正是我那老比尔叔叔打来的。这种心灵感应的背后肯定有点儿什么原因!”这就是一个典型的为巧合事件编造解释的例子。每天,我们大多数人都可能想到很多或远或近的人,这些人在我们想起他们时,有多少人可能会打电话来呢?几乎没有可能。这样一年之内,我们可能想过数百个不曾打来电话的人。最终,在经历数百次这种我们不曾意识到的“错误尝试”之后,某个人在我们想他/她的时候正准备给我们打电话。这种事情难得一见,但难得一见的事情也会发生——纯粹是偶然。其他解释都是画蛇添足。
如果人们真正理解了巧合的含义(一个偶然发生的令人不可思议的事件),他们就不会落入陷阱去寻求系统的、非偶然性的解释。但事实正相反,对很多人来说,巧合是需要偶然性以外的原因来解释的。例如,许多人都听到过这样的说法:“天哪!简直太巧了!我真想知道为什么!”为此,马科斯(Marks,2001)建议大家今后用罕见匹配这个比较中性的名词来形容令我们感到惊异的两个事件的同时出现。
有一种错误信念助长了为巧合事件寻求解释的倾向,这种信念认为罕见的事不会发生,罕见匹配也绝非偶然。我们的这类错误信念之所以如此强烈,是因为概率有时是用几率(odds)这一词语来表述的,而这种表述具有双关的暗示作用。看看我们是用什么方式来表述概率的:“啊!天哪,这事儿是极不可能发生的!因为它出现的几率只有1/100!”我们在做这样的表述时所用的方式让人强烈地感觉到这件事绝不会发生。当然,我们可以用另外一种表达方式来表述同一件事,而这一方式可能给人带来完全不同的感受:“在100个同类事件中,这种结果可能会出现一次。”这种表述方式强调,尽管这一事件是少见的,但是长时间来看,罕见的事终究一定会发生的。简言之,罕见匹配是会偶然发生的。
事实上,概率定律确保了随着事件发生次数的增加,一些罕见匹配出现的可能性会变得很大。这一定律不仅允许罕见匹配出现,而且从长远来看几乎保证了它的出现。请看马科斯(Marks,2001)的例子,如果一次掷5枚硬币,结果它们都是正面朝上,你将认为这是一个罕见匹配,一件不太可能的事情。是的,它发生的概率是1/32或0.03。但是如果你将这5枚硬币掷100次,再问,在这100次中,至少有一次全部正面朝上的可能性是多少呢?答案是0.96,就是说,100次中,这一罕见匹配是极有可能发生的。
若干年前,安·兰德炮制了一系列流传甚广的有关亚伯拉罕·林肯总统和约翰·肯尼迪总统之间令人“毛骨悚然”的巧合:
1.林肯于1860年当选总统;肯尼迪则于1960年当选。
2.林肯和肯尼迪都关注民权。
3.林肯和肯尼迪这两个名字都有7个字母。
4.林肯有一个秘书叫肯尼迪,肯尼迪也有一个秘书叫林肯。
5.两人都由叫约翰逊的南方人继任。
6.两人都被有三个名字的人暗杀(John Wilkes Booth和Lee Harvey Oswald)。
7.Booth和Oswald都持有不受人欢迎的政见。
8.Booth在剧院里射杀了林肯,然后藏在仓库里;Oswald从仓库中射杀了肯尼迪,然后藏在剧院里。
当然,作为巧合,这些事之间的联系一点也不令人毛骨悚然。德克萨斯大学的电脑程序师约翰·李维(John Leavy, 1992)曾经搞了一个“令人脊背发凉的总统巧合竞赛”来说明,实际上在任何两个总统之间找到像上述那样的一个清单是多么容易的事(见Dudley, 1998)。例如,李维的文章中比较了威廉·亨利·哈里森和扎卡里·泰勒、波尔克和卡特、加菲尔德和麦金利、林肯和杰克逊、尼克松和杰斐逊、华盛顿和艾森豪威尔威尔、格兰特和尼克松、麦迪逊和威尔逊之间的相似之处。下面是加菲尔德和麦金利之间惊人的相似之处:
1.麦金利和加菲尔德都生长在俄亥俄州。
2.麦金利和加菲尔德都是美国内战的老兵。
3.麦金利和加菲尔德都在众议院任过职。
4.麦金利和加菲尔德为了保护美国工业,都支持金本位制和关税保护制。
5.麦金利和加菲尔德这两个名字都有8个字母。
6.麦金利和加菲尔德都被来自纽约市的副总统取代:西奥多·罗斯福和切斯特·亚伦·阿瑟。
7.罗斯福和阿瑟两人的名字都有17个字母。
8.两个副总统都蓄须。
9.麦金利和加菲尔德都在任期内第一年的9月被枪杀。
10.刺杀他们的凶手,查尔斯·基埃图和利昂·乔尔戈什听起来都不像美国人的名字。
许多关于总统之间联系的清单都很相似。总之,考虑到一个人几十年的生命中人际交往和各类事件的复杂性,在这样一个包含成千上万个事件的样本空间里,任何两个人之间如果找不到什么相似之处才是让人感到奇怪的(Martin, 1998)。
懂得在什么时候避免对纯粹随机因素导致的事件编造复杂的解释,这是具有实际作用的。作家艾图尔·嘉万迪曾描述了1973年赎罪日战争期间,认知心理学家卡尼曼和以色列空军打交道的事例。两个飞行中队出发并返航,一队损失了四架飞机,另一队则没有损失。军方希望卡尼曼调查一下,之所以有这样的差异,是否有特别的因素在起作用。卡尼曼并没有去做调查,他仅仅运用了本章所谈到的理念去告诉以色列空军不要浪费时间:“卡尼曼知道,如果空军官员真的去调查,他们将不可避免地在两个中队间发现一些可测量的差异,并且感觉非得做点什么”(Gawande, 1999, p.37)。但是卡尼曼知道,任何找到的因素都极有可能是虚假的——不过是纯粹的偶然性波动的结果而已。
发生在我们个人生活中的罕见匹配往往对我们具有特殊的意义,我们尤其不愿将其归因为偶然。产生这种倾向的原因有很多,某些是动机性和情感性的,还有一些是概率推理的失败。我们通常不能意识到,罕见匹配只是巨大“概率事件”样本库中一个非常小的部分而已。对我们中的某些人来说,罕见匹配看起来好像经常发生,但是它真的经常发生吗?
想想如果我们现在对你个人生活中的罕见匹配加以分析,会得到什么结果。假定某一天里你参与了100件不同的事情。考虑到现代工业社会中生活的复杂性,这个数字并没有高估,实际上可能还低估了。你看电视、打电话、与人面谈、讨论去工作或去商场的路线、做烦人的家务、看书获取信息、在上班时完成复杂的任务等等。所有这些事件都包含很多可单独记忆的成分。这样一算,100件事其实真不算多,不过,我们就按100件事情来算。罕见匹配是指其中两个事件不可思议地联系在一起了。那么典型的一天中这100件事之间共有多少不同的、两两匹配的组合呢?用一个简单的公式就能算出结果,你通常一天有4950个不同的配对组合,而一年有365天。我们知道,罕见匹配是令人难忘的,比尔叔叔打来电话的那一天可能令你数年难忘。假如你把10年内所记得的所有罕见匹配数出来,也许也就6或7件(或多或少,人们对于小概率有不同的标准)。这6、7件事情来自于一个多大的概率事件样本库呢?每天4950个配对事件,乘以一年365天,再乘以10年,得到18067500个配对。总之,10年中如果有6个你认为是罕见匹配的联系发生了,就有18067494个也可能是罕见匹配的其他配对事件发生了。所以,你的生活中的一个罕见匹配发生的概率是0.00000033。有6个罕见匹配出现在1800万个事件中,的确很稀罕,但并不奇怪。罕见的事件确实发生了,它们也的确少见,但是,偶然性这一因素保证了它们一定会发生(回忆前面掷5枚硬币的例子)。在我们的例子中,6件奇事发生在你身上,它们可能是巧合:两个相关事件由于偶然性的存在而不可思议地同时发生了。
心理学家、统计学家以及其他科学家都指出,许多罕见匹配实际上并没有人们通常认为的那么“罕见”。著名的“生日问题”是最好的例子。在一个23人的班级里,有两个人生日是同一天的概率是多少?大多数人会认为非常低。而实际上,23人的班级中,两人同一天过生曰的可能性大于50%。而在35人的班级,可能性就更大了(概率大于0.80,见Martin, 1998)。所以,因为美国历史上有43位总统,因此詹姆斯·波尔克和沃伦·哈丁两位在同一天出生(11月2日)也就不足为奇了。同样地,有38位总统都已过世,其中米勒德·菲尔莫尔和威廉·塔夫脱死于同一天(3月8日)也不应令人感到惊讶,甚至还有另外3位总统——约翰·亚当斯、托马斯·杰菲逊、詹姆斯·门罗——都死于同一天,而这一天竟然是7月4日,美国独立日!后面这个神奇吗?其实不过是概率使然罢了。
在试图解释世界上发生的所有事,同时又拒绝承认偶然因素的作用,实际上会降低我们对现实世界的预测能力。在某个领域中,承认偶然因素的作用意味着研究者必须接受这样一个事实,即我们的预测不可能百分之百准确,预测中总是会犯一些错误。但有趣的是,承认我们的预测达不到百分之百的准确度,实际上反而有助于我们提高整体预测的精确性。这听起来好像有点儿矛盾,但是事实确是如此:为了减少错误就必须接受错误(Dawes, 1991; Einhorn, 1986)。
“我们必须接受错误以减少错误”这一概念可以通过一个在认知心理学实验室里研究了数十年的非常简单的实验任务来证明(Fantino & Esfandiari, 2002; Gal & Baron, 1996)。这个实验任务是这样的,被试坐在两盏灯(一红一蓝)前,实验者要求他们去预测每次测试时哪一盏灯会亮,被试要参与很多轮这样的测试,并按准确率给予一定的报酬。实际上,所有的测试都是在70%的次数亮红灯、30%的次数亮蓝灯的条件下进行的,两种灯以随机顺序出现。实验过程中,被试很快就感到红灯亮的次数比较多,因此也就在更多的测试中预测红灯会亮。事实上,他们确实在大约70%的测试中预测红灯会亮。然而,正如前面所讨论的,被试在实验过程中逐渐发现并相信灯亮是有一定模式的,但却从没想过序列是随机的。为了要使他们的预测百发百中,他们在红灯与蓝灯之间换来换去,保持70%的次数预测红灯会亮,30%预测蓝灯会亮。被试极少意识到,如果他们放弃对“百发百中”的追求,他们的预测会更好一些!为什么会是这样的呢?
让我们想想这一情境背后的逻辑。在以70:30的比例随机点亮红灯或蓝灯的情况下,如果被试在70%的测试中预测红灯会亮,30%的测试中预测蓝灯会亮,他的准确率会是多少呢?我们将用实验中间部分的100个测试来计算——因为那时被试已经注意到红灯亮的次数比蓝灯多,从而开始在70%的测试中预测红灯会亮了。在100次测试中有70次红灯亮了,所以被试在这70次中有70%的正确率(因为被试在70%的测试中预测红灯会亮),也就是说,被拭在70次中有49次正确的预测;100次测试中有30次蓝灯亮了,被试在这30次中有30%的正确率(因为被试在30%的测试中预测蓝灯会亮),也就是说,被试在30次中有9次正确的预测。因而,在100次测试中,被试的正确预测是58次。但是,请注意,这是多么可怜的成绩啊!如果被试在注意到哪一盏灯亮得比较多后,就总是预测那盏灯会亮——在本实验中,就是注意到红灯亮的次数比较多,因此就总是预测红灯会亮(姑且称之为“百分百红灯策略”),那么,他在100次测试中会有70次正确的预测。虽然在蓝灯亮的30次测试里,被试将没有一次正确的预测,但是总准确率仍然高达70%——比在红灯与蓝灯之间来回变换以追求“百发百中”的58%的准确率要高12个百分点!
然而,百分百红灯策略取得的高准确率是要付出代价的:必须放弃“百发百中”的愿望。(显然,蓝灯偶尔亮的时候,被试始终是在预测红灯亮,也就是放弃了在蓝灯亮的测试中命中的机会)。这就是接受错误以减少错误。放弃不犯错误的想法,会让被试获得更高的总体准确度。同理,以一定的精度预测人类的行为时,有时也需要接受错误以减少错误,也就是,在依靠一般性的原则来做出比较准确的预测的同时,也要承认我们不可能在每件具体事情上都对。
但是,“接受错误以减少错误”做起来很难。在心理学领域里,40年来关于临床预测和统计预测的研究就证明了这一点。统计预测是指依据统计资料中得出的群体趋势所作的预测。本章一开始所讨论的群体(也就是总体)预测就是属于这种预测。一种简单的统计预测是,针对凡是具有某种特征的所有个体,做出相同的预测。例如,预测不吸烟者的寿命是77.5岁,而吸烟的人是64.3岁,就是一个统计预测。如果考虑的群体特征不只一个(运用第5章谈到的复杂相关技术——尤其是多元回归技术)将令我们的预测更加准确。例如,预测吸烟、肥胖且不运动者的寿命是58.2岁,就是在一个多变量(吸烟行为、体重和运动量)基础上的统计预测,这样的预测总是比单变量的预测更加准确。统计预测在经济学、人力资源、犯罪学、商业与市场学以及医学等领域都很常见。
在心理学的许多分支领域,如认知心理学、发展心理学、组织心理学、人格心理学与社会心理学中,其知识都是通过统计预测来表述的。相反,一些临床心理从业者则声称他们可以超越群体预测,对特定个体做出百分之百准确的预测,这种预测被称为临床预测或个案预测。与统计预测相反,临床预测是这样的:
某些心理学家声称,他们能对个体进行预测,从而超越了对“一般人”或不同类别的人所进行的预测……某些心理学家最大的不同在于,他们主张将每个人理解为独一无二的个体而不是群体的一部分,而统计概括是适用于群体的。某些心理学家声称能分析出在个体的生活中“什么导致了什么”,而不说“总体而言”什么是对的。(Dawes, 1994, pp.79-80)
临床预测似乎可以视为是对统计预测的有用补充,但问题是,临床预测并不准确。
如果证明临床预测是有效的,那么一个临床医生与他的病人接触的经验以及有效运用病人所提供的信息,应该使他能够提出比较好的预测,这个预测一定能胜过对病人信息进行编码、然后输入能够对量化数据加工的统计程序而得到的预测结果。总之,有人主张说,临床心理从业者的经验使得他们能够超越尚未由研究揭示的关系。“临床预测是有效的”这一观点很容易验证,不幸的是,经过检验,这一观点被证明是错误的。
对临床预测与统计预测的比较研究所得到的结果始终是一致的。自从保罗·米尔(PaulMeehl)的经典著作《临床预测与统计预测》(Clinica! Versus Statistical Prediction)于1954年出版以来,40年间有超过100个研究表明,在几乎每一个曾经验证过的临床预测领域(精神治疗的效果、假释行为、大学生毕业比例、电击治疗的反应、累犯问题、精神病住院治疗期的长短等等),统计预测都优于临床预测(Dawes,Faust, & Meehl, 1989; Faust, Hart, Guilmette, & Arkes, 1988; Goldberg, 1959, 1968, 1991; Ruscio, 2002; Swetsetal., 2000; Tetlock, 2005)。
在多个临床领域中,研究者给临床心理医生一份病人的信息,让其预测这个病人的行为。与此同时,他们也把同样的信息加以量化,用一个统计方程加以分析,这一方程是以先前研究发现的统计关系为基础编制的。结果都是统计方程大获全胜。这就表明,统计预测比临床预测更为准确。事实上,即使是在临床心理医生可以获得比统计方法更多的资料的情况下,后者仍然比前者的预测更准确。也就是说,临床心理医生除了拥有与统计预测一样的量化资料以外,还拥有与病人单独接触和访谈所得到的资料,但是这并没有令其预测变得像统计预测那样准确。“即使拥有信息优势,临床判断仍然不能超越统计方法;实际上,拥有更多的信息,并不能弥补两种方法之间的差距”(Dawes et al., 1989, p.1670)。产生这种结果的原因当然是统计方程将各种信息数据按照优化标准整合起来,并且做得准确而稳定。优化和稳定这两个因素就让临床心理医生通过非正式方法收集到的资料和信息的优势消失殆尽。
检验临床-统计预测的研究文献中,还包含这么一种方法,那就是给临床心理医生由统计方程得来的预测结果,让其根据自己与病人接触的经验来对这一预测做出调整。结果,临床医生对统计预测做出调整后,预测的准确度非但没有增加,反而降低了(见Dawes,1994)。在这里我们又看到了一个不能“接受错误以减少错误”的绝好例子,与前面所述的那个红蓝灯预测实验非常类似。应当利用灯亮次数多少这一统计信息而采用每次都预测红灯的策略(可以获得70%的正确率)时,被试却为追求次次正确而在红灯与蓝灯之间换来换去,结果正确率反而降低了12%(只有58%的次数是正确的)。同样地,在上述研究中,临床心理医生相信,他们的经验应该可以提供给自己一些“洞察力”,从而得以做出比定量数据更好的预测。实际上,这些“洞察力”根本不存在,他们的预测比依赖公开的统计信息所做出的预测要差。最后需要指出的是,统计预测的优越性并不局限于心理学,它业已扩展到了许多其他临床科学中——例如,医学中对心电图的解读(Gawande,1998)。
对于研究显示统计预测优于临床预测的优势,米尔(Meehl, 1986)曾说:“社会科学中,没有任何一个争议能如这次这般,从这么大量的、性质上如此多样的研究中得到如此一致的结论。”(pp.373-374)。但令人尴尬的是,心理学领域并没有应用这一知识。例如,这个学科在研究生入学与心理健康培训招生等程序中仍然不停地使用个人面试,尽管大量征据表明,面试方法缺乏效度。临床工作者也继续利用一些似是而非的证据来证明他们对于“临床直觉”的依赖是合理的,而不依靠更有效的总体性预测。例如,道斯等(Dawesetal, 1989)曾指出:
一种普遍的反统计论调或误区在于,认为群体统计不适用单个人或事。这种观点是对概率基本原则的误用……要保持逻辑上的一致,反统计论的鼓吹者就必须相信并承认,如果一个人被迫玩一次俄罗斯轮盘赌,允许他选择膛内装有1发或5发子弹。事件的单一性使得选哪把枪都无所谓(p.1672)。
关于这一点的一个类比是,问你自己对如下科学发现的反应是什么,这个发现是:完成过多次类似手术的医生,在下一例手术中成功的概率会比较高(Christensen, 1999)。现在有一个医生A,他常做某一类手术,失败的可能性很小,而另一个医生B从没做过这种手术,失败率可能很高,请问,你愿意让这两个医生中的哪一个来为你做手术呢?如果你相信“概率不适用于个案”,那你就不该介意让医生B给你做手术。
在诸如心理治疗效果等问题上,承认统计预测优于临床预测并不会对心理学的声望造成任何损失,因为在医学、商学、犯罪学、会计学甚至是家畜鉴定等许多领域中,这条规律都适用(见Dawes, 1994; Dawes et al., 1989; Dowie & Elstein, 1988)。尽管从总体上说,心理学不会因为这些研究结果而有什么损失,但是对那些以“专家”身份出入各种活动,并让病人相信他们有独一无二的临床个案知识的临床心理从业者来说,当然会造成声誉或者收入上的损失。然而,正如麦佛和瑞特(Mc Fall & Treat,1999)在一篇论述临床评估价值的文章所提醒的那样:“我们试图评估和预测的事情在本质上是概率性的。这意味着我们不能期望大自然会如此听话,能让我们以百分百的把握去预测单一事件。相反,我们最高的期望也只能是鉴别一系列可能的结果,然后去估计每个结果出现的相对可能性。从这种概率的角度看,传统临床评估期望达到的那种理想化目标——对独特的未来事件做出精确的预测——其实太天真了,反映了我们的无知或自大,或二者兼有”(p.217)。
实际上,如果我们将“接受错误以减少错误”变为一种习惯,心理学和整个社会都将从中受益。在试图对每一个不同寻常的事件做出独特解释时(就我们目前的知识情况来说,独特的解释也许根本不可能),我们常常丧失了对更多平常事件的预测能力。请大家再次回想一下红灯-蓝灯实验,诚然,“百分百红灯策略”会对出现概率较小或很少出现的不寻常事件(蓝灯亮)做出错误的预测,但如果我们把注意力放在出现概率较小的事件上,采用“70%红灯、30%蓝灯策略”,结果会怎样呢?我们会在30个不寻常事件中正确预测9次(30x0.3), 其代价是丧失了对21个常见事件做出正确预测的机会,没有对红灯做出70次的正确预测,只获得49次的正确预测(70x0.70)。临床领域中的行为预测也遵循相同的逻辑,为每一个案编造复杂的解释,确实可能抓住一小部分不寻常事件——旦这是以损失了对大多数事件的正确预测为代价的,而在此方面,简单的统计预测则更有效。加望德(Gawande, 1998)指出,医学领域也同样需要学习“接受错误以减少错误”这个道理。他认为在医学里,强调直觉、个别化的治疗方法“是有缺陷的——我们试图承认并考虑人类复杂性的因素,但这非但没有避免错误,反倒招致了更多的错误”(p.80)。
华格纳和科瑞(Wagenaar & Keren, 1986)论证了对个人知识的过分自信以及对统计信息的忽视,会破坏“系安全带驾车”的交通安全推广活动的效果。因为人们总是认为:“我和别人不一样,我驾车很安全”。问题是85%的人都认为“自己的技术比一般驾车者高明”(Svenson, 1981)——这显然是很荒谬的。
“统计数据不适用于单一个案”这一同样的谬误,是导致赌徒积习难改的重要因素。华格纳(1988)在他的赌博行为研究中总结道:
从我们和赌徒的讨论中可以非常清楚地看出,赌徒大体上都能意识到赌博造成的不良后果。他们也知道最终输的会比赢的多,而且在未来也是如此。但他们却不能把这些统计性的思路应用到下一局、下一小时或下一个晚上。丰富的直觉经验还是让他们觉得,统计学在下一局或下一小时里派不上用场,他们相信自己能够预测下一局的结果(p.117)。
华格纳发现,强迫性赌徒对“接受错误以减少错误”有很强的排斥倾向。例如,二十一点牌局的玩家,普遍拒绝使用一种基本策略(见Wagenaar, 1998, 第2章),这种基本策略可以保证把庄家的胜率从6%或8%降低到不足1%。基本策略是一个长期性的统计策略,强迫性赌徒之所以拒绝它,是因为他们坚信“有效的策略应该是在每一把都有效”(p.110)。华格纳研究中的赌徒“总一成不变地说,这类系统的一般性策略是不会有用的,因为它们忽略了每一个具体情境的独特性”(p.110)。这些赌徒抛弃能保证他们少输上千美元的统计策略不用,转而去徒劳地追求建立在每一具体情境独特性基础之上的“临床预测”。
当然,这里有关临床-统计预测研究文献的讨论,并不意味着个案研究在心理学中毫无价值。请大家记住,这一章所谈的只是“对行为的预测”这一特定情境。回想一下在第4章中对于个案研究价值的讨论,个案信息在引发对重要的、需要进一步研究的变量的关注方面是非常有用的。而这一章中所说的则是,一旦相关的变量已经确定,我们要开始运用它们来预测行为时,测量这些变量并使用统计公式来进行预测始终是最优程序。首先,我们通过统计方法得到了更为准确的预测;其次,统计方式优于临床预测之处在于,统计程序所得出的预测是公共知识,任何人都可以使用、修改、批评或争论。相反,如果使用临床预测就等于要依靠个别权威的评估——由于这类判断太过个别和特殊——因此不能接受公众的评议。正如道斯(Dawes, 1994)所述:
一个职业心理学家在法庭上宣称,他有一种效果极佳的“临床判断”,是基于他自己多年所积累的经验,无法公开证实,只能在诸如专业资历、做出相同证言的年数、态度品行等无关联的方面接受挑战。与之相反,一个统计模型可以在理性方面接受挑战,因为它是公众性的(p.104)。
偶然性在心理学中扮演的角色时常被外行人士和临床心理从业者所误解。人们很难认识到,行为事件结果的变化中有一部分是由偶然因素造成的。也就是说,行为的变化有一部分是随机因素作用的结果,因此心理学家不应自诩能够预测每一例个案的行为。心理学的预测应该是概率性的——是对总体趋势的概率性预测。
表示自己可以在个体层次上进行心理预测,是临床心理学家常犯的错误。他们有时候会错误地暗示别人,临床训练赋予了他们一种对个别案例做出准确预测的“直觉”能力。恰恰相反,几十年来,有价值的研究都一致表明:在解释人类行为的原因方面,统计预测(基于群体统计趋势的预测)远远优于临床预测。目前还没有证据表明,临床直觉能预测一个统计趋势是否会在一个特定的个案身上出现。因此,当对行为进行预测时,千万不要对统计资料置之不理。统计预测也昭示,当对人类的行为进行预测时,错误和不确定性将始终存在。