讀古今文學網 > 不確定世界的理性選擇:判斷與決策心理學(第2版) > 第7章 偶然與因果 >

第7章 偶然與因果

假設你正在想著一盤蝦,突然就有人提到了盤子,或者蝦,或者一盤蝦。完全出乎意料,也沒法找到一個理由。這就是一種巧合,巧合存在於所有的事物之中。

——摘自電影《報信的人》,由阿萊克斯·考克斯編劇和導演,1984

7.1 對偶然性的誤解

1972年1月26日,22歲的南斯拉夫空服人員維斯娜·瓦洛維奇正在南斯拉夫航空JAT 367次航班上為乘客們提供飲料。不料,一個克羅地亞的民族主義恐怖組織在這架飛機上裝了一顆炸彈,炸毀了飛機。大多數人會覺得她倒霉透了——首先,她工作的航班遭到了這樣一次罕見的襲擊就夠倒霉了,更倒霉的是,她本來不該在這次航班上工作,但安排工作時搞錯了她的名字,因此這對她來說完全是一次陰差陽錯的飛行。不過這個故事也有好的一面:瓦洛維奇小姐奇跡般地生還了,她現在還保持著不帶降落傘從高處墜落生還的世界紀錄——33 000英尺 (10 000米)。而此次飛機失事後僅僅過了一年多,她就宣佈已經做好重返工作崗位的準備,她將自己描述為一個「樂觀主義者」,為上帝懷有新的信仰。這麼一來,許多人又會認為她是一個千載難逢的幸運兒。不過瓦洛維奇小姐自己卻比較贊同人們對她的第一個評價:「我並不幸運,每個人都認為我是幸運的,但他們弄錯了。如果我真的幸運,就根本不會遇上這樣的事故」(Bilefsky,2008)。

人們在思考和討論一些非同尋常的事件時,常常會有截然不同甚至有時完全相反的觀點。這並不奇怪,畢竟這些事件往往都神秘莫測,人們對其知之甚少。但即使撇開這一點不談,我們大腦本身的設計似乎也不太善於對偶然性和不確定性進行系統的推理。可能是因為一些演化上的原因,我們傾向於對不確定的事件進行過度解釋,而且,即便明白這些事件本質上就是無法預測的,我們還是會對事件的經過產生奇異的想法,其中包括許多迷信的觀念(Sagan,1997)。正因為我們對不確定性和隨機事件有一些與生俱來的錯誤觀念,因此,只要對概率論這樣一個技術框架略知一二,我們看待世界的方式就會發生巨大的變化。但是,如果沒有特別的訓練,沒人會以概率的方式看待世界。相反,在人們看來,整個世界中的各種事件和事物看起來都像是由因果關係粘合在一起的,並且大多數人確信這些因果關係是存在的,他們在思考的時候關注的是因果關係的強度,而非概率。

我們一直以來都盡量注意不將世界說成是概率的或隨機的。概率論是一種用以描述世界的語言,更準確地說,描述的是我們關於這個世界的信念之間的關係。對大多數人來說,這是一種不太熟悉的語言,有一堆特殊的符號性詞彙和語法規則(概率論的簡介參見附錄)。就像我們前面所說的,一直到近代的西方文明史中,概率論才開始出現,而「概率」(probability)這樣的詞彙直到17世紀才進入英語詞典。[詞典編撰者認為「可能」(probable)這個詞是從「認可」(approvable)這個詞中提取出來的,比如,一個「可能」的丈夫最初是指一個可以接受或者在道德上獲得「認可」的丈夫。]

有的時候,我們確實會在日常生活中談論到偶然性、運氣、概率或隨機性這樣的詞彙——我們說「她運氣真好」,「這件事是偶然發生的」,「那是一個隨機事件」。但是對這些說法最到位的解讀則是:這些話反映了說話人頭腦裡的知識狀態。哲學家龐加萊(1914/1952)在一篇睿智的文章中探討了偶然性的本質。他認為,日常生活中我們所提到的事件都是由確定的物理過程所引發的,而有些特別的事件之所以會被說成是隨機、偶然性或概率性的,是因為這些事件的因果關係比較隱蔽或複雜,還不為人所知。回到本章開頭的故事,我們說不清楚到底發生了什麼樣的物理事件而讓維斯娜·瓦洛維奇與死神擦肩而過,但是我們相信,她得以倖存的原因,所涉及的一些物理條件是可以具體闡釋清楚的——只要有足夠的信息。如果我們當時能夠對她的墜落過程進行觀察,包括在那一瞬間她是如何接觸地面的,以及接觸前最後一刻她身體內部的狀態,我們應該就可以從物理因果關係的角度來解釋這次載入史冊的死裡逃生。

再舉一個例子,我們把拋硬幣看成一個隨機過程,並且把「正面」事件(理想)的概率值定為0.50,但實際上我們卻相信,拋出一枚硬幣會得到什麼結果,其背後隱藏的所有生物和物理事件都是確定的。事實上,手法嫻熟的魔術師(如數學家戴康尼斯)已經發展出了一些技巧,能夠對拋硬幣這個看起來明顯不可控的過程進行控制,並準確無誤地拋出他們想要的正面或反面的結果(Bayer & Diaconis,1992;Diaconis,Holmes,& Montgomery,2007)。當然,物理分析也有不同的水平,比如,如果在量子水平上進行分析,科學家們所討論的因果關係就不會直接對應於我們所體驗到的那些機械原理下的因果關係,不過我們並不是在量子水平上體驗世界,所以探討那些事件的時候很少會這麼來討論。

當然,在我們周圍的環境中,某些部分是與理論隨機過程(theoretical random processes)中的理想行為非常接近的——那些在賭場或彩票中的事件看起來是由確定的物理過程所「引發」的,但是其中的因果機制太過複雜,事件的決定因素太過微妙,因而最好是在概率論的框架下來考慮這些情境。本書最重要的一個信息就是,對於所有不確定情境中的判斷,我們都應該用概率論來組織思維,哪怕我們對其中某些情況的因果機制比對賭場的瞭解更多(或更少)。不過,即使在一些我們知道是由偶然性決定的瑣碎小事上,我們還是傾向於否認這些事件裡存在隨機的成分。有一個有趣的故事,說的是一位西班牙全國彩票中獎者,當採訪他有什麼秘訣時,他說他有意選擇了一張尾數為4、8的彩票,他解釋道:「我連著7個晚上夢見了數字7,而7乘以7等於48」(Meisler,1977)。

7.2 控制的錯覺

在一系列巧妙的實驗中,哈佛大學的Ellen Langer(1975)證明,我們常常會自然而然、無意識地將偶然的事件看做與技巧有關,從而認為它們是可控的,比如賭徒們想要擲出一個較大的數字時會更用力地擲骰子。Langer設計了一種彩票,每個被試會獲得一張卡片,上面有一個美國橄欖球聯盟的球員名字和照片,另外有一張相同的卡片會放在一個袋子裡,如果被試從袋子中摸出的卡片與自己拿到的那張相同,就能贏得彩票。這個實驗分為兩種條件,其中一組被試可以自行選擇要哪個球員的卡片,另一組被試則由實驗者來分配卡片,顯然,無論被試能否自由選擇卡片上的球員,他們贏得彩票的概率都不會受到影響,因為袋子裡的卡片是隨機抽取的。然而,當實驗者向被試提出要購買他們的卡片時,那些自己選擇卡片的被試所開的價錢平均是那些隨機分配卡片的被試的4倍之多。在被試接受詢問的時候,沒有人提到自由選擇球員會影響到他們贏得彩票的概率,但他們的行為卻好像在說這種影響是存在的。

在另一個令人震驚的實驗中,Langer和Susan Roth(1975)能夠讓耶魯大學的本科生相信他們對拋硬幣結果的預測能力是在平均水平之上或之下。這是如何做到的呢?在實驗中,被試會得到一個虛假的反饋,知道自己的表現與機遇水平差不多——猜30次對了15次。但是實驗者操縱了被試在30次猜測中是前面對得多還是後面對得多。實驗結果與首因效應(primacy effect)[或錨定和調整(不足)效應]相符,前面對得多的被試傾向於認為他們在預測方面是「在平均水平之上」的,而後面對得多的被試則判斷自己比較差。(顯然,由於隨機波動的緣故,在30次那麼少的情況下,預測拋硬幣結果的成功概率是不可能保持不變的。)此外,「超過25%的被試報告自己的預測表現會受到分心物的干擾,而40%的被試認為預測表現可以通過練習來提高。」因此,人們不僅在行為上會表現得他們好像可以控制隨機事件,也直接表達出他們有意識的想法,認為這樣的控制是一種能力,和其他能力一樣,會受到分心物的干擾,還可以「熟能生巧」。重要的是,要知道這些被試都來自於世界上頂尖的大學,但是他們仍然認為預測拋硬幣的結果是涉及某種能力的,而非純屬運氣。

此外,就像心理學的大多數日常應用一樣,賭場和彩票經理這樣的從業者對於這些原則已經有了一些直覺性的瞭解。許多有關概率的商業博弈常常會包含一些欺騙性的技巧元素,這些有意設計出來的元素,用以迷惑玩家,使他們誤以為自己在這些博弈中可以有控制的能力和機會。在許多國家,彩票玩家可以自行選擇下注數字,而在彩票中也常常會有一些廣告語,令玩家相信彩票是與能力相關的:「打出全壘打,贏得大聯盟獎金」、「只要買個保齡球,你就能成為贏家。」

控制錯覺還會導致一個更為嚴重的後果,那就是我們更偏愛開車而非坐飛機。這個(從生存角度來說)非理性的習慣,至少部分原因是因為我們認為開車相比坐飛機「更有控制感」。實際上,在一次越洋飛行中喪生的概率與開車20公里喪生的概率大致相等——許多時候,只要你到達了機場,就意味著旅行中最危險的部分已經結束了(Sivak & Flannagan,2003)。根據Gerd Gigerenzer(2006)的估計,在「9·11」恐怖襲擊事件中,除了3 000名直接受害者之外,其後由乘飛機改而選擇開車的轉變,額外導致了1 500人死亡。

控制錯覺研究中最有趣的研究之一表明,在現實世界的投資情境中,控制錯覺與隨後的不佳表現存在聯繫。四名英國金融學專家請四家投資銀行的交易員玩一個計算機遊戲,在這個遊戲中,遊戲者試圖去影響一個虛擬的投資指數(Fenton-O』Creevy,Nicholson,Sloane,& Willman,2003)。實際上,指數的變動完全獨立於這些交易員的行動——指數是隨機的,有一個微弱的增長趨勢。這些交易員進行了四輪遊戲,然後對自己在拉升指數方面所做的貢獻進行評估——因為指數的變動與交易員的行為無關,因此這個問題測量的是個體的控制錯覺。平均來看,交易員們都陷入了這樣的錯覺中,他們均認為自己確實影響到了指數的變動。更為有趣的是,交易員的控制錯覺水平與其收益以及上司對其才能和績效的評價呈負相關。控制錯覺程度更強的交易員的收益大大少於那些更切實際的交易員(差異金額在10萬美元的量級上),對所在銀行的利潤貢獻更少,上司對他們在風險管理、分析能力和人際技能方面的評價也更低。

7.3 看到並不存在的因果結構

代表性和基於情景的思維導致的惡果就是使我們看到一些並不存在的因果關係或結構(即非隨機性)。這是因為,我們對於隨機性的樸素概念中包含了過多的變化,於是,哪怕某個過程代表了一個理想的隨機試驗,我們對隨機性的錯誤概念也往往會讓我們認為這個過程不是隨機的。讓我們考慮一個再簡單也再熟悉不過的隨機過程——拋硬幣,如果要求人們「表現得像一枚硬幣」,自行生成一個序列,包含正面反面的拋硬幣結果,這個序列要反映出一枚「公平」硬幣(這裡的「公平」是指拋出正反面的概率相等且多次拋擲結果互相獨立,詳見附錄A.2。——譯者注)所拋出來的典型結果,那麼大部分人所生成的序列中都會包含過多的交替——非隨機性地出現過多的正面-反面和反面-正面的變換。[在不同的結果序列中選出「真實硬幣」的任務中,人們也表現出了同樣的偏差(Lopes,1982)。]代表性之所以在其中產生影響,是因為當我們需要對隨機和非隨機的事件「發生器」進行區分時,會依賴於我們對隨機過程的刻板印象(就和我們對女權主義者、銀行職員或藝術史專業學生的刻板印象一樣),採用相似性來判斷或生成一個序列。因此,當我們遇到一個真正隨機的序列時,就很容易會因為它看起來不夠隨意雜亂(因為它出現的交替少於我們對一個隨機序列的錯誤刻板印象)而斷定它是非隨機的。

假設你用一枚公平的硬幣(從你自己的口袋裡拿出來的)來玩Langer和Roth(1975)的拋硬幣遊戲。拋了8次之後,你嘗試要預測下一個結果是正面還是反面。值得注意的是,之前硬幣每次都是得到正面,一連8次正面。如果你和大多數人一樣,那麼你會感覺第9次出現反面的可能性更大(你感覺「應該這樣」),甚至可能會下點賭注在反面上。這種感覺還有一個例子,我們常常會看到這樣一個並不正確的賭博建議:「在拉斯維加斯,如果你看到一個輪盤賭連著3次以上都停在紅色,那就押黑色,穩贏。」人們對這樣的說法甚至可以講出其原理:連續9次正面(或紅色)的情況非常少見,幾率顯示這幾乎不可能發生[對硬幣來說是(1/2)9,即1/512或大約0.002的概率,輪盤的概率則更小],因此如果你連續8次出現某一面,那麼連續9次出現可能性會很小。這樣的直覺和推理稱為賭徒謬誤(gambler』s fallacy)——這種觀念認為,如果一個(獨立隨機的)事件有一段時間沒有發生,那麼就該說「這個事件發生的時機已經成熟了」。硬幣和輪盤都沒有記憶,在一個序列中每次事件發生的幾率都與其他所有事件互相獨立,因此出現反面或紅色的概率是恆定的。

許多人都相信空難是接二連三「扎堆」發生的——禍不單行。[筆者認識的一位臨床心理學家將這樣的巧合作為「榮格共時性」(Jungian synchronicity)的證據。]Russell Vaught和Dawes從美國聯邦航空局那裡獲得了1950年至1970年各家航空公司空難的所有數據,對空難發生的間隔天數進行了考察。一個完全隨機的模型假定,在任意一天發生空難的概率是恆定的p,於是從某次空難發生之後算起,考察第二次空難發生的概率。在緊接著的第一天發生第二次空難的概率為p,而在第二天發生第二次空難的概率則為(1-p)p,因為緊接著的第一天必定是沒有發生空難,隨後在第二天發生空難。[請注意(1-p)p小於p,這個結果對一些人來說是與直覺相反的,也許可以類比第5章中「女權主義的銀行職員琳達」。]以此類推,第二次空難發生在第一次空難後第三天的概率為(1-p)(1-p)p = (1-p)2 p,第二次空難發生在第n天的概率為(1-p)n-1 p。

Vaught和Dawes(未發表研究)對所有的空難和所有毀滅性的墜機事件分別進行了考察,發現基於p值恆定的隨機理論模型的擬合程度接近完美。那麼空難看起來會「扎堆」發生,這是為什麼呢?因為當j〈k時,(1-p)jp〉(1-p)kp,所以真正的隨機序列確實包含了事件的「扎堆」。問題在於代表性思維會引導我們斷定這樣的隨機模式是非隨機的,相反,我們會假設出一些諸如「勢頭」這樣的正反饋機制來進行解釋(採納「榮格共時性」假設的人是少數)。舉例來說,雖然像「樂極生悲,否極泰來」這樣的箴言可能是對的,但是我們也能找到一些反駁證據,在那些成功概率很高的人或組織身上我們會發現連續成功的模式,或在那些失敗概率很高的人或組織身上看到連續的失敗——哪怕這樣的模式來自於獨立事件。

有一個情境,人們在其中清楚看到的模式在數據中並不存在,這就是籃球比賽中的熱手現象(hot hand phenomenon)。熱手並不純粹是指有些球員的投籃比其他球員更為精準,而是指一種(人們假設出來的)正反饋表現過程,即球員在得分後更容易得分,失分後接著失分。(請注意,同樣的詞語「熱手」也用來形容成功的骰子賭徒,儘管根據一般的常識,我們都知道在正常運行的遊戲中,賭徒們無法控制骰子滾動的結果。)Tom Gilovich、Robert Vallone和Amos Tversky(1985)以實驗證明了熱手效應並不存在,對一個球員來說,某次投籃命中之後緊接著投籃再命中和投籃不中的可能性差不多。至少,無論是費城76人隊的原地投籃、波士頓凱爾特人隊的罰球,還是作為實驗控制組的康奈爾大學校籃球男女隊的原地投籃,都沒有發現有關熱手效應的證據。但是,球員對自己投籃命中與否的預測則出現了熱手效應,即便他們的實際表現並不存在這樣的效應。一個球員之前剛剛投進2到3個球後再次投球,其成功率是不是會高於之前沒投中2到3個球的時候?在一個針對一群籃球運動員和體育記者的調查中,90%以上的人回答「是」。

Jay Koehler和Caryn Conley(2003)在以往研究的基礎上,分析了美國職業籃球比賽4年遠投大賽的情況,從中尋找非隨機的模式。在這個比賽中,NBA中投籃命中率最高的投手們要在60秒的時間限制內在三分線外(從球場的這個區域投籃命中可得3分而非2分)盡可能獲得高分。這個研究同樣沒有發現有任何非隨機的證據。即使研究者在分析中特別考慮了轉播解說員所提到的「熱手」,也還是沒有出現這樣的模式。值得注意的是,在其他一些諸如保齡球、射箭、檯球和高爾夫這樣的運動中,一些非隨機的連勝或連敗得到了證實,這說明如果在數據中確實存在這樣的模式,統計分析足以敏感地將其捕捉到的。(這裡看起來似乎存在一個更大的假設:在非互動的、均勻場地的運動中,球員的表現中會出現一些微妙的序列效應;而在無序的、球員之間正面接觸的互動型運動中,就不存在這樣的模式。)

這些研究並沒有證明籃球比賽中熱手效應的普遍不存在性(如果你考慮這個問題,你覺得證明存在和證明不存在哪個更困難?),不過這些結果暗示我們,如果熱手效應存在,這個效應也是很小、很罕見、很不可靠的。要說任意一組具體的數據都是隨機的,未免牽強,因此比較站得住腳的說法是,生成這批數據的過程是隨機的,也就是說,數據的觀察者無法獲得必要的信息來對數據中的事件進行任何程度的具體預測——對觀察者來說,概率或隨機過程就是對這批數據的最佳描述。熱手效應這個例子會讓人備感驚訝,因為對人們來說,這樣一個因果過程似乎很容易就能想像出來,能夠產生預期(可惜觀察不到)的模式。舉例來說,有一個對Gilovich等人(1985)和Tversky和Gilovich(1989)的觀點的回應,認為他們沒有發現隱藏在數據中的真實的熱手效應模式,其原因在於他們忽略了得分的時機。Patrick Larkey、Richard Smith和Jay Kadane(1989)發表了一篇重新分析這些研究數據的文章,其中的數據只包含那些在時間相距很近的情況下的連續得分。他們發現有一個球員,底特律活塞隊的「微波爐」文尼·約翰遜,他的表現偏離了隨機模型,「微波爐」這個綽號正是來源於他連續得分的名聲。然而,Gilovich等人(1985)在反駁中指出,重新分析數據只發現了一個「熱」球員,並且他的連續得分情況之所以在統計上達到顯著,完全是依靠了一個連續7次得分的情況。隨後他們進一步指出,回顧原始的比賽錄像,並沒有發現連續得分7次的情況,事實上,那一次是「微波爐」連續得分4次,然後在1次投籃未中後搶下籃板補中,之後又得分1次。糾正了這個數據收集上的錯誤後,連「微波爐」也沒有偏離隨機模型。

如果有一個病人連續3周情況良好,是否就意味著針對他的療法是成功的?連續3周情況不良是否意味著失敗(或者樂觀一點說是「開始出現問題」)呢?球隊連輸3場是否意味著教練要下課?某公司連續3個季度業績下滑是否就意味著CEO要下崗?不,拋硬幣的時候區區3次連續正面並不能說明這個硬幣是被人動了手腳的。然而,瞭解某個人成功與否的基礎率(尤其在這幾個星期或季度的表現之間完全無關的時候還要去預期比實際更多的交替變化),使得人們極有可能去推測在這樣的連續中存在因果因素,尤其是一些與行動者自身行為存在關聯的因素。[還有一個解釋的角度:在日常表現中,我們比較容易看到的那些「熱」或「冷」模式,其關鍵因素是不是在這些情況下「連續」擊中或漏過具有知覺突顯性?在球迷們熱烈討論「熱手」的那些職業籃球比賽中,投籃命中的成功率大大高於50%,因此,連續「命中」會比較尋常,從而與我們所預期的較多轉換(命中未中和未中-命中轉換)相違背。如果換作是在棒球擊打中,球迷談論更多的是「低谷」,因為棒球平均擊球成功率遠遠低於50%,所以連續「漏擊」就會變得更為明顯。]

為什麼我們會期望有過多的交替變化?Tversky和Kahneman(1974)將這種預期歸因於我們的錯誤信念,即認為哪怕是很小的序列也必須要能代表總體,也就是說,我們框出來的很小一部分事件的比例也必須匹配(或代表)總體中的比例。舉例來說,拋硬幣的時候,我們知道可能序列的總體中正面數量應占50%,因此我們會預期在一個拋4次的樣本中,也是有50%的正面。當每次拋擲互相獨立的時候,就會比實際情況需要更多的交替。(極端情況下,2次拋擲的序列中如果要50%的正面,則需要每次正面都是接在一個反面之後,反過來亦是如此。)在這裡,代表性思維使我們從對模式的關注變成對特徵的關注,而不是從特徵到模式。然而,無論是特徵還是模式,這種基本的信念同樣都源於相似性匹配,也就是聯繫。此外,這個效應也會受到我們相對狹窄的注意廣度的影響——我們希望自己能記住或想像的較短序列是具有代表性的。

考慮下面Tversky和Kahneman(1974)的研究中的一個問題:

有調查訪問了一個城市中所有生育6個孩子的家庭。在其中的72個家庭中,男孩和女孩的實際出生順序是「女男女男男女」。那麼根據你的估計,實際出生順序為「男女男男男男」的家庭數量為多少?實際出生順序為「男男男女女女」的家庭數量又為多少?

幾乎每個人(80%以上的回答者)都判斷後面兩個序列比第一個序列的可能性要小。然而,所有實際序列都具有相同的可能性(任意實際序列的概率都為0.5×0.5×0.5×0.5×0.5×0.5,即0.015625,差不多相當於在1 000個生育6個孩子的家庭中每種序列上會有16個家庭。)為什麼人們會有一種很強烈的直覺認為「女男女男男女」的情況更多?因為這個短序列捕捉了我們關於隨機過程的所有直覺:這個序列表現出正確的比例(一半男孩,一半女孩),並且看起來是隨意的,有許多交替的情況——一句話,這個序列看起來「確實很隨機」。(這種序列也和我們對於一個普通籃球運動員的命中失誤情況的預期差不多,即命中和失誤並沒有很長的連續性而是不斷地交替變換,因此當我們看到一個球員的表現有許多連續的命中時,我們會傾向於說:「這不可能是隨機的,這個球員絕對是『打熱了』。」)與之相反,第二個序列看起來可能性就不那麼高了,因為它的出生比例不對(男孩太多),違反了小數定律,而第三個序列雖然比例上沒問題,但是看起來太整齊了(連續3個男孩,然後連續3個女孩)。

有時候,這種對於隨機序列交替的信念(因為上6次輪盤賭結果都為黑色,所以確信「紅色應該來了」這樣的賭徒謬誤)會走向一種荒唐的極端。舉例來說,請看下面「親愛的阿比」這封信的開頭:

親愛的阿比:我和丈夫剛剛有了我們的第八個孩子,又是一個女孩,我現在真的非常失望。我的小女兒很健康,我想我應該感謝上帝,但是阿比,這個孩子應該是個男孩,醫生也告訴我說,根據平均律,這次我們心想事成的可能性是100比1。

人們傾向於看到或推斷出一些完全不存在的模式(或因果關係),第二次世界大戰中德國V-1和V-2導彈轟炸倫敦的事件就是一個很「形象」的例子。倫敦報紙刊登了轟炸地點的地圖(見圖7.1),市民們立刻就看出了一些集中打擊的地點,並且將這些信息作為參考來解釋敵軍的意圖。他們是如何來解釋自己所看到的這些模式的呢?英國市民們推論,他們所看到的打擊模式反映出敵軍有意避開某些區域,而這些區域正是德國間諜的藏身之處。然而,古典概率模型分析的結果證明,這些打擊地點與一個隨機泊松過程生成裝置所模擬的結果是完全一致的,也就是說,沒有任何理由能推斷在這個模式背後存在著一個系統性的動機或因果關係(有關的數學分析參見William Feller經典的教科書《概率論及其應用》)。

圖7.1 倫敦V-1和V-2炸彈命中模式

從地理圖式中推斷因果關係的傾向還有一個很現實的例子,是有關「癌症集群」癔症的心理學。在過去的20年中,有關某些社區中癌症發病率奇高的報道越來越多(見Gawande,1999)。當一個社區注意到當地的癌症發病數量不同尋常時,自然而然就會想要在環境中尋找原因——水、陸地或空氣中的某些東西,但如果對被隔離的癌症高發地進行調查,卻往往一無所獲。面對局部地區不斷上升的癌症率,一些公共衛生機構每年開展了數以千計的「熱點追蹤」研究。但(在1999年)加利福尼亞首席環境健康調查員雷蒙德·理查德·尼特拉指出,在成百上千的此類公開調查報告中,沒有一個明確地指出了某種環境因素(引自 Gawande,1999)。在這些調查中,只有一個調查發現了一個不明致癌物質。尼特拉指出,在美國公共衛生署有80種不同的典型癌症登記在冊,根據概率論的預測,在加州5 000個普查統計報告中,你能夠在其中2 750個報告中觀察到某種癌症的發病率在統計上顯著過高,但這種情況只是隨機的結果。因此,如果檢查一下你的鄰居們在那80種癌症上的發病率,那麼有0.50以上的可能性他們會至少在某1種癌症上的發病率顯著過高——但是這樣的發現與一個假定沒有任何環境因素參與的隨機影響模型是完全一致的。艾倫·本德(引自Gawande,1999)是明尼蘇達州衛生部門的一名流行病學家,他對這些由社區癌症集群所引發的熱點追蹤調查作如是評論:「實際上這完全是在浪費納稅人的錢。」

但是我們應該做些什麼來維持公眾信任,並發現真正的環境衛生風險呢?事實上,一個隨機概率模型與我們觀察到的模式相一致,並不能證明其中不存在因果關係——這又回到了那個問題:「你怎麼能證明這個效應完全不曾存在於任何地方?」但是我們會將這些事件的重要性情感化和符號化,浪費大量的公共資源去應對,並且錯誤地發現了集群與其周圍環境之間的許多相關。對個人集群進行分析,並且尋找這些集群與某些(任意)環境因素之間的關聯,這樣的策略被流行病學家們稱為德州神槍手謬誤(Texas sharpshooter fallacy)。這個說法源自一個火槍手的故事,這個火槍手朝著一個穀倉的牆壁射了一串子彈,然後在這些彈孔周圍畫上一圈圈的靶心。在這種情況下,我們需要接受那些統計專家們的意見,只有在之前已經有充分的理由假設出一種環境因素,或者確實存在極為不同尋常的統計模式時,才對之做出反應。一個廣受關注的癌症集群案例發生在馬薩諸塞州的沃本恩,在同名為《法網邊緣》的圖書和電影中均有詳細描述。這個案例最終也沒有發現由瑞利皮革廠排放的污染物與工廠周圍居民的癌症病例之間存在科學可靠的因果關係。

7.4 趨均數回歸

對含有隨機(未知因素)成分的事件進行代表性思維還會帶來一個問題,就是會使我們做出一些非回歸預測。要瞭解為什麼會出現這樣的情況,我們首先要瞭解什麼是回歸預測。

假設一些父親的身高都非常高,那麼平均來說,他們的兒子也會是高個子,但是會比他們的父親要稍微矮一點。同樣,特別高個兒子的爸爸平均也會比他們的兒子矮些。我們看圖7.2中,首先,橫軸表示父親身高,縱軸表示兒子身高,橢圓表示「數據」,我們以那條垂直實線代表高個父親,這條線與橢圓形成上下兩個交點,而因為兒子的身高在垂直維度上的分佈可能並不是絕對對稱的,會朝矮個兒子的方向有一個長尾,因此,高個父親的兒子平均身高就可能在水平虛線的位置,即那條標有「高個父親的兒子身高均值」的虛線。這樣通過考察一個典型的「高個父親」,我們就能由一個簡單的邏輯來確定這些父親的兒子的平均身高,結果顯示這個均數出現了「回歸」——也就是說,兒子的身高相比這些父親的極端身高,變得不那麼極端了。d與D』之間的差異就是這個數據集的回歸程度指標。如果我們從「高個兒子」入手,會發現一個完全一樣的反轉模式,水平實線表示「高個兒子」,由垂直虛線向交於軸(x軸)的那一點,即為高個兒子的父親的平均身高。

英國科學家高爾頓(1886)第一個發現了這一關係,他將其命名為「後代趨中回歸」(filial regression towards mediocrity)(p.246)。一開始,他認為這種關係來源於某種遺傳過程,這種遺傳過程使有機體朝著平均屬性轉變,但是在考慮了逆轉關係(時間上倒轉)後,他得出結論,認為這是所有相關關係中都存在的統計屬性。圖7.2解釋了這種關係,你看到的就是一個簡單的趨均數效應。因為父親和兒子的身高並不完全相關(無論出於什麼原因),所以就存在回歸。非回歸預測(non-regressive prediction)是指人們存在這樣一種傾向,即忽略一些隱蔽的回歸關係,而預測極端值會與一些異常極端值相聯繫——就如我們馬上會看到的那樣。

我們來考慮另外一個例子[來自Quinn McNemar(1940)的工作,Quinn McNemar是一位心理學家,也是最早指出這個統計結果並說明其對人類行為研究的啟示的學者之一]:假設在一家孤兒院中對所有的孩子進行一項智力測驗,施測兩次,期間相隔一年。再假設兩次測驗的群體均數和標準差都相同,但是兩次測驗分數之間並不完全相關(實際相關大約在+0.80)。現在只考慮那些在第一次測驗中得到高分的孩子:他們第二次的測驗分數平均來看會低一些。(因為相關係數低於+1.00,我們預期其中會有一些變化;因為兩次分數的分佈是相同的,因此第一次測驗中的高分者平均說來一定會在第二次測驗中稍低一些。)那些最低分的孩子同樣如此:第一次測驗的低分孩子在第二次測驗中平均分數會高一些。如果我們將時間逆轉,從第二次測驗看到第一次測驗,結果又會怎樣呢?答案是同樣的,這種關係也能夠成立——極端分數會變得不那麼極端。趨均數回歸對於不完全相關的量化變量來說是必然的。

圖7.2 統計回歸解釋

也許最容易理解回歸的方式是考慮完全回歸的極端情況。拋8次硬幣,隨後重新再拋8次。無論第一個序列中有幾次正面,第二次序列中正面次數的期望(平均)都為4,因為硬幣是沒有動過手腳的,所以第一個序列中的正面次數與第二個序列中的次數是完全不相關的——因此就是取平均,也就是4,這是完全的趨均數回歸。隨著變量之間的預測力提高,回歸程度就會降低。舉例來說,平均而言,非常高的父親所生的兒子都高於普通人,但是不如他們的父親高。只有當一個變量完全能由另一個變量預測的時候,才不存在回歸。事實上,標準相關係數(的平方)可以很簡單地定義為一個變量由另一個變量進行線性預測的非回歸程度。趨均數回歸的技術定義為完全相關(即+/-1.00)與線性相關之間的差異:

回歸 = 完全相關-相關

在日常判斷中,有許多例子證明我們會忽略趨均數回歸。我們常常會驚訝於為什麼在一次華爾街的突出業績、一部熱門電影、一支榜首歌曲或一次比賽優勝之後人們就表現平平了。《體育畫報》封面厄運就是一個經典的例子。讀者們發現,每當一個運動員或一支球隊上了《體育畫報》的封面(這常常是因為他們取得了一些優異的成績)之後,這個人或這支球隊就可能會表現低迷,或者遇到其他一些不幸。統計分析更是強化了這種印象,而球迷們則為這樣的現象提出了許多看似合理的解釋——這個運動員因為出名而驕傲、因為媒體的追逐而分心,等等。當然,我們知道大部分(即便不是全部)的「效應」其實是因為人們選擇了極端事例並觀察到了趨均數回歸,「選擇性極端事例」這樣的解釋就已足夠,不需要再加入其他特別的解釋了。

霍雷斯·賽克雷斯特在1933年的《商業中庸才的勝利》一書中舉了一個學術方面的經典例子。賽克雷斯特的觀點是,成功和不成功的企業「都會走向平庸」,這個觀點通過上百幅企業業績圖得到證明。這些圖顯示,在第一年選出的業績處於兩極的公司中,最為成功的那部分企業之後會變得不那麼成功,而最初最不成功的那些企業則會慢慢向成功的方向發展。傑出的統計學家Howard Hotelling對此評論道:「這種表面上的匯聚情況是一種由分組方法導致的統計謬誤,這些圖表最多只能證明各組企業的比例會產生波動。」他指出,要驗證數據是否真的出現趨向於中間的匯聚,應該考察各組企業之間的方差是否隨時間持續降低——但在這個研究中並沒有考察。同樣的錯誤也出現在彼得斯和沃特曼在1984年的暢銷書《追求卓越》一書中。這兩位管理咨詢師挑選了43家業績優異的公司,評述了一些能夠使這些企業走向「卓越」的突出特點,但5年之後,《商業週刊》的封面故事《哎呀,現在誰還是卓越的?》指出,在最初那些因為卓越而入選的公司中,超過三分之一正面臨財務危機或破產。

在許多案例中,我們都非常關心各種改善績效的方法所產生的效果——對成績不良的學生進行課程輔導、獎勵業績突出員工、為身體欠佳者補充營養等。在這裡,我們再次遇到這個問題,需要將這些方法實際產生的效果和單純的回歸作用區分開來。這個問題只存在於極端事例中,有些隨之而來的錯誤是非常隱蔽的。比如在二十世紀六十年代中期,當Daniel Kahneman(Tversky & Kahneman,1974)向以色列國防軍的飛行教官們解釋獎勵比懲罰具有更好的激勵作用時,一個教官向Kahneman提出了反對意見。

尊敬的先生,您所說的只對實驗室裡的小鳥有用。我常常熱烈地表揚出色完成飛行練習的士兵們,但是下一次他們幾乎都會做得比前一次差;而當士兵們表現得很差時,我會對他們發火,於是下一次他們的表現基本上都會進步。別告訴我獎勵有用而懲罰沒用,我的經驗正好相反。

這位飛行教官看到的就是一個回歸效應。人們在「出色完成飛行練習」後會傾向於做得沒那麼好,這是因為一次表現與下一次表現之間並不是完全相關(同樣,無論出於什麼原因)。每次「表現得很差」之後同樣會有所進步——同樣只是因為每次表現之間並不是完全相關的。(要在某個學期獲得「學業進步」獎,最簡單的方法就是前一個學期的成績在班級裡接近墊底,而得到「後進生」稱號的方法就是在某次能力測驗上得個高分。)遺憾的是,就像飛行教官的故事一樣,許多不瞭解回歸效應的教師也許就會系統性地認可懲罰的作用(因為極端的不佳表現會朝著較好的方向回歸)而對獎勵失望(因為極端的出色表現會朝著較差的方向回歸)。(事實上,要說明為什麼一些像飛行教官這樣的人會偏好用懲罰而非獎勵作為一種行為操控的手段,回歸效應的解釋就足夠了。)

我們對這些不可避免的回歸效應視而不見,這還會帶來一個令人不快的副作用,那就是,我們對於一些通過解雇教練或CEO來獲得成功的干預方式存在過度自信。考慮這樣一種典型的情境:在某個賽季的上半賽季,某支球隊表現得特別糟糕,球隊老闆於是決定解雇教練,在隨後的下半賽季,球隊的表現轉好了。我們應該將這種改善歸因於解雇並替換教練,還是歸因於簡單的回歸效應呢?畢竟總體來說,賽季中段解雇教練這樣的事情往往是在球隊表現極為糟糕的情況下發生的。因為我們缺少這樣一個隨機解雇教練的實驗(而且這樣的實驗不太可能實現),所以無法確定到底是哪種因素在起作用。但是謹慎的統計分析一致顯示,大部分的進步都是因為回歸作用(Koning,2003),解雇公司經理人的情況同樣如此。(體育運動中的實際情況是這樣的:如果一個球隊在某個賽季的上半段表現非常差,通常很可能是因為他們遇到的對手都是一些強隊,而後半賽季往往就會遇到一些弱旅,從而更大程度地誇大了替換教練所帶來的作用。)

應對回歸效應的理性方式是,在做出預測的時候把「回歸」考慮進來。因此,當我們需要或想要評估差異(比如,應該獎勵「優秀表現」還是改善「糟糕表現」)的時候,要比較實際值和預測值(predicted value)——不要用兩次測量中的實際值來進行比較。舉例來說,當我們要比較一個病人在時間點1和時間點2上的MMPI測試得分,以此考察這個病人的「進步」時,首先用相關的方法由各個得分得到每個病人在時間點2的一個(回歸的)預測分數,然後將時間2的實際得分與這個預測分進行比較,而不是比較時間2和時間1的實際得分。否則的話,那些在時間1上(病理)得分較高的病人們可能會被誤判為「進步」了(「他們的分數已經無法再高,只能往下走」),而那些MMPI得分正常的病人可能會被誤判為治療不起作用。遺憾的是,代表性思維就會使人們在不做回歸的情況下直接比較差異,這顯然會導致錯誤的結果。舉例而言,「最值得注意的是,那些在症狀改善方面得分最高的人……正是那些最初症狀最為嚴重的、最沒有希望用保守療法的人」(Dawes,1986)。(道斯在其作為一名臨床心理實習醫生時,他請醫院的心理學家和精神病學家將一些出院的病人劃分為進步程度高於平均和低於平均兩組,結果那些歸類為進步程度高於平均的病人,都是住院期間在各種MMPI測試中得分較高的人——相對於大部分接受治療的病人來說,其得分差異顯著。)

我們試圖評估一些用來提高績效的干預手段(比如飛行教官試圖用懲罰糟糕表現的方式來提高學員表現)是否成功時,趨均數回歸就特別容易蒙蔽我們的判斷。如果採用干預手段是因為「我們出現了問題」,就意味著我們很難清楚地瞭解干預手段的效果。比如,在發生慘絕人寰的交通事故之後採用一個嚴格的交通管理計劃、在公司幾次糟糕的業務表現之後聘請一個新的CEO、在連輸幾場比賽後換一個新的教練,這些情況下我們都不可能準確地評估其中的因果關係。干預手段能否起到改善的作用,這一點存在偶然性,而幾乎可以確定的是,其中一部分或絕大部分的效應來自於趨均數回歸。

7.5 關於我們無法接受隨機性的反思

前面所描述的判斷中的一些錯誤,對我們來說可能已經不是那麼出人意料了。賭場經營者們花了幾百年的時間來美化坑人的概率遊戲的形象,就是為了引誘那些不夠警惕的顧客,我們怎麼能精明過他們呢?同樣,在哪些條件下(在某些體育項目中)確實會出現連勝的情況、而在哪些類似的情況下則不會出現,球迷們又怎麼會分得清楚呢?我們就是會看到很多實際不存在的因果結構,面對許許多多自然發生的情景時會想像自己在其中有更多的控制能力,為什麼會存在這種普遍傾向?這依然是一個讓人疑惑的問題。在下一章中,我們會介紹一個良方來應對這些難以根除的壞習慣——像一個概率理論家那樣思考。

參考文獻

Bayer, D., & Diaconis, P.(1992).Trailing the dovetail shuffle to its lair.Annals of Applied Probability, 2, 294-313.

Bilefsky, D.(2008, April 26).Serbia』s most famous survivor fears that recent history will repeat itself.New York Times.Retrieved June 20, 2009, from https://www.nytimes.com/2008/04/26/world/europe/26vulovic.html

Dawes, R.M.(1986).Representative thinking in clinical judgment.Clinical Psychology Review, 6, 425-441.

Diaconis, P., Holmes, S., & Montgomery, R.(2007).Dynamical bias in the coin toss.Society for Industrial and Applied Mathematics Review, 49, 211-235.

Feller, W.(1968).Introduction to probability theory and its applications (3rd ed.).New York: Wiley.

Fenton-O』Creevy, M., Nicholson, N., Sloane, E., & Willman, P.(2003).Trading on illusions: Unrealistic perceptions of control and trading performance.Journal of Occupational and Organizational Psychology, 76, 53-68.

Galton, F.(1886).Regression towards mediocrity in hereditary stature.Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246-263.

Gawande, A.(1999, February 8).The cancer-cluster myth.New Yorker, pp.34-37.

Gigerenzer, G.(2006).Out of the frying pan into the ire: Behavioral reactions to terrorist attacks.Risk Analysis, 26, 347-351.

Gilovich, T., Vallone, R., & Tversky, A.(1985).The hot hand in basketball: On the misperception of random sequences.Cognitive Psychology, 17, 295-314.

Hotelling, H.(1933).Review of The Triumph of Mediocrity in Business.Journal of the American Statistical Association, 28, 463-465.

Kareev, Y.(1992).Not that bad after all: Generation of random sequences.Journal of Experimental Psychology: Perception and Performance, 18, 1189-1194.

Koehler, J.J., & Conley, C.A.(2003).The 「hot hand」 myth in professional basketball.Journal of Sport & Exercise Psychology, 25, 253-259.

Koning, R.(2003).An econometric evaluation of the effect of iring a coach on team performance.Applied Economics, 35, 555-564.

Langer, E.J.(1975).The illusion of control.Journal of Personality and Social Psychology, 32, 311-328.

Langer, E.J., & Roth, J.(1975).Heads I win, tails is chance: The illusion of control is a function of the sequence of outcomes in a purely chance task.Journal of Personality and Social Psychology, 32, 951-955.

Larkey, P.D., Smith, R.A., & Kadane, J.B.(1989).It』s okay to believe in the 「hot hand.」Chance, 2(4), 22-30.

Lopes, L.L.(1982).Doing the impossible: A note on induction and the experience of randomness.Journal of Experimental Psychology: Learning, Memory, and Cognition, 8, 626-636.

McNamar, Q.(1940).A critical examination of the University of Iowa studies of environmental inluences on IQ.Psychological Bulletin, 18, 63-92.

Meisler, S.(1977, December 30).Spain lottery-Not even war stops it.Los Angeles Times, p.D1.

Oops! Who』s excellent now? (1984, November 5).BusinessWeek, 76-88.

Peters, T.,&Waterman, R., Jr.(1984).In search of excellence.NewYork: Harper & Row.

Poincare, H.(1952).Science and method (F.Maitland, Trans.).London: Dover.(Original work published 1914)

Sagan, C.(1997).The demon-haunted world: Science as a candle in the dark.New York: Ballantine.

Secrist, H.(1933).The triumph of mediocrity in business.Chicago: Bureau of Business Research, Northwestern University.

Sivak, M., & Flannagan, M.J.(2003).Flying and driving after the September 11 attacks.American Scientist, 91, 6-8.

Tversky, A., & Gilovich, T.(1989).The -hot hand-: Statistical reality or cognitive illusion.Chance, 2(4), 31-34.

Tversky, A., & Kahneman, D.(1974).Judgment under uncertainty: Heuristics and biases.Science, 185, 1124-1131.