讀古今文學網 > 學會提問(原書第10版) > 令人困惑的平均值 >

令人困惑的平均值

請檢查下面的陳述:

(1)快速致富的一個方法就是做一名職業足球隊員,2010年國家足球聯盟球星的平均收入是180萬美元。

(2)在大學裡要取得好成績學生需要付出的努力是越來越少了。根據最近一項調查,大學生每週平均花在學習上的時間是12.8小時,和20年前的大學生相比大概只有他們的一半。

兩個例子當中都使用了「平均」這個詞。但是實際上卻有3種不同的方法來測定平均值,而且在大多數情況下,每種方法都會給出不同的數值。

第一種方法是把所有數值相加然後用總數除以相加的數值個數。這種方法所得的結果就是平均數(mean)。第二種方法是將所有數值從高到低排列,然後找到位於最中間的數值,這個中間數值就是中位數(median)。有一半的數值在中位數之上,另一半在中位數之下。第三種方法是將所有數值排列好,計算每個不同數值出現的次數或每個不同數值範圍出現的次數,出現頻率最高的數值就叫作眾數(mode),這是第三種平均值。

作者談論的是平均數、中位數還是眾數,將會產生很大的區別。

第一個例子當中取哪種平均值最能說明問題?考慮一下職業化運動當中大牌球星的收入與那些一般球員的收入對比。最大牌的球星,比如說橄欖球明星四分衛,收入比球隊裡大部分其他球員要高出很多。事實上,2010年度薪酬最高的橄欖球運動員歲入超過1 500萬美元——遠遠高於平均值。這樣高的收入將會急劇拉高平均數,但是對於中位數或眾數而言則影響不大。舉例來說,國家橄欖球聯盟的球員2010年度工資平均數是180萬美元,但是其工資中位數卻只有77萬美元。因此,在大部分職業運動當中,平均數工資比中位數工資或者眾數工資要高出很多。所以,如果有人想讓工資水平顯得非常非常高,他就會選擇平均數作為平均值。

現在讓我們來仔細看看第二個例子。如果這裡列舉的平均值要麼是中位數要麼是眾數,我們有可能就高估了平均的學習時間。有些學生很可能花很多時間學習,比如一周30或40個小時,這樣就提高了平均數的數值但是卻不影響中位數或者眾數的數值。學習時間的眾數可能花遠低於或者遠高於中位數,主要取決於花多長時間學習對學生而言最為常見。

當你見到平均值的時候,一定要記得問一下:「是平均數、中位數還是眾數,選擇的平均值不同會不會產生什麼影響?」要回答這個問題,請想一想平均值的不同含義會對信息的意義造成怎樣的改變。

不僅判斷一個平均值是平均數、中位數還是眾數非常重要,判定最小數值和最大數值之間的差距(即全距(range))以及每個數值出現的頻率(數值分佈),常常也顯得異常重要。

下面我們來看一個例子,在這個例子裡全距和數值分佈就顯得非常重要。

醫生對20歲的病人說:你所患癌症的預後不容樂觀。患同樣癌症的病人存活時間的中位數是十個月。所以剩下來的這幾個月你想做什麼就做點什麼吧,不必有什麼顧慮了。

病人聽到醫生給出這樣的診斷結果,他對自己的未來該做出怎樣可怕的展望呢?首先,我們確定的是獲得這種診斷的病人有一半不到十個月就去世了,還有一半人存活時間超過了十個月。但是我們並不知道活下來的那部分人的存活時間的全距和數值分佈。這些可能顯示出有些人甚至是很多人活得遠遠超過了十個月時間。其中有些人甚至很多人可能活到80歲以上呢!知道病人存活時間的完整分佈可能會改變這名癌症患者對未來的看法。

一般來說,病人應該考慮國內不同的醫院對於他的疾病的存活率是不是有不同的全距和數值分佈。這樣他就應該考慮選擇在那家有最樂觀的數值分佈的醫院就診。

當我們遇到平均數的時候,瞭解全距和數值分佈的一個總體好處就是這樣做會提醒你大多數人或事並不正好符合平均值,與平均值差異極大的結果也在意料之中。例如,在有些健康議案中許多旨在改善我們健康狀況的醫療干預措施事先都會給我們看一看其平均獲益情況,儘管這項研究中的許多人獲益極少或壓根就沒有獲益,甚至有些人會不同程度地受損。