算術平均數(下)

算術平均數(上)文中,我一開始便說算術平均數(Arithmetic mean)是以刪掉資訊來換取簡潔的表達,但文中只簡單提及了在用平均數時我們失去了方差(Variance)的資訊,這次就讓大家看看平均數在不同的情況下,分別刪掉了什麼吧。

還記得Windows XP 和Mac OS X的例子嗎?如果你為你的程式在Windows XP 和Mac OS X 的環境下分別進行了1000次測試,得出的結果是︰在Windows XP中程式運行所需時間平均30秒,而在Mac OS X中則平均10秒。當有人問及你相關的資料時,你可以有以下三種回答方法︰
(1)XP 第1次︰32秒,XP第2次︰29 秒,XP第3次︰31秒…..OS X 第1次︰8秒,OS X第2次︰12 秒………………………(把所有測試的結果通通列出來)
(2)OS X 的1000 次測試中,平均時間10 秒,Windows XP 的1000 次測試中,平均時間30秒
(3)在Windows XP 和Mac OS X 的2000 次測試中,平均時間20 秒。

有看算術平均數(上)的讀者們,應該知道我又想說「(3) 的資訊比(2)少,(2)的資訊比(1)少」和「三個答案沒有誰對誰錯,答哪一個才好是取決於對方想要什麼」但如果我們是知道對方想要什麼資料的話,這三個答案便有好壞之分。

試想想我們由(1) 計出(2) ,以及由(2) 計出(3) 的時候,「平均數」這個工具刪掉了什麼,來換取簡潔的數字?

先看由(1) 到(2)的變化。
在(2) 的句子中,我們只看到兩個平均數,看不到個別測試的時間。這代表我們如果只看(2) 的話,便看不到每一次個別測試中的時間和平均數的差距了。這些差距是由什麼造成的呢?可能是計時的誤差,或是溫度的細微變化,也許硬碟在運行時剛好有點不順暢,造成測試結果和30秒有一點點差距………….所以我們在用平均數時,刪掉的正是「計時有誤差,或是溫度的細微變化,也許硬碟在運行時剛好有點不順暢」這些資訊。

(注意︰由於我們仍然把XP 和OS X 的測試分開來計算,所以作業系統方面的資訊在(2)中是沒有流失的)

同理,由(2) 到(3)的過程中 ,我們也是用了平均數這個工具,把Windows XP 和Mac OS X 的結果計算一個平均數。但這一次我們刪掉的資訊,是「不同作業系統對運行速度的影響」這一項資訊。

如果人們不太在意計時誤差等等的影響,我們用(2)來描述測試結果便是既簡潔而又有代表性的表達。而用(3) 來表達,也不可以說是錯了,但如果人們正是想知道有關作業系統的資訊,很抱歉,他們看不到,因為這項資訊被你刪掉了。

以下是另一個例子。

回到上篇的故事中。數天後,你在網上閒逛,又發現了另一個同類的程式,寫著「2000次的測試的結果︰程式運行平均所需時間是3秒。」我下載來試試看,怎料又是慢到不行,等了十多分鐘還以為電腦當機了,於是你又展開了捉騙子行動。好不容易才把那人找出來,怎料那人又是不慌不忙的說︰「我沒有算錯啊。」

一看那人的測試紀錄,看到︰

「第1次︰1小時,第2次︰1秒,第3次︰1 秒…………….第2000 次1秒,(3600+1999)/2000=2.8,平均大概是3秒啦﹗」

那人補充說︰「只要用1小時先運行第1次,每2次以上每次運行都只需1秒,如果我多試10000次,得出來的平均數更低,而且樣本量(Sample size)會更高呢,統計數字就更具代表性了。」

你氣得差點暈倒︰「你只寫平均3 秒,誰會知道你的程序其實是要先運行一小時呢!」…………………….

這個人又是不是騙子呢?

這人的平均數是沒有算錯,但因為第1 次的運行和第2次以上的運行是完全兩回事(正如在Windows XP 中測試和在Mac OS X中測試是兩回事一樣),只說「2000次的測試的結果︰程式運行平均所需時間是3秒。」的話,這個平均數便把「首次運行程式會比運行第2次或以上慢很多」這一項很有用的資訊刪掉,自然就會造成誤解了。

這堆資料的正確解讀方法應該是︰
「首次運行的話,測試次數︰1 次,測試結果︰1 小時
運行第2次或以上,測試次數︰1999 次,測試結果︰平均 1秒」

留給讀者的問題︰在正確的解讀方法下,多測試一萬次(樣本量增加10000個)會使上述的統計數字就更具代表性嗎?

相信大家很輕易就可以想到其他例子,例如天氣報告不會分別報導街道兩旁的溫度差距,不是因為街道兩旁的溫度永遠都一樣,而是因為即使街道兩旁的溫度有點不同,對讀者來說都是無關重要的細節,所以我們只需整個地區計一個平均溫度就可以了。但我們不會看到把台北和北極的溫度計算一個平均數的報導,因為對看天氣報告的人而言,台北和北極的溫度差異是重要的。

算術平均數還有很多有趣的特性,例如它很多情況下都是一些沒有可能出現都數值(例如擲骰子得到的值平均是3.5,但我們永遠也不會擲出3.5的值),還有它比較容易受極端值(Extreme value)影響之類。這些和幾何平均數(Geometric mean)、中位數(Median)及眾數(Mode)有關,另文再談吧。

作為使用平均數的人,要緊記我們每次使用平均數都會把一些資訊拿走,所以在使用前要確定不會把重要的資訊刪掉(除非你是故意不想其他人看到它們吧)。而閱讀平均數的人,在每次看到有人用平均數這個工具時,都應想一想,「他刪掉了什麼資訊?」如果是廣告中的數字,很可能那個廣告商刪掉了的,才是你最想看到的資訊呢。

圖片來源︰http://www.uberreview.com/

喜歡這篇文章嗎? 分享出去給作者一點鼓勵吧!