Category Archive for '統計學'

Mr Thursday在介紹機率的一篇文章中,談及人們可以利用期望值的概念,對不確定的事情的價值進行估算。這次我想談談一個和期望值有直接關係的悖論 – 聖彼德堡悖論﹝St Petersburg Paradox﹞ 聖彼德堡悖論所提及的情形是這樣的,如果現在有一個遊戲,首先擲一個銅板,如果擲出正面,你便會得到1元,這樣遊戲便結束了。但如果擲出反面,便要再擲一次,如果在這個時候擲出正面,便賺2元﹝2^1﹞,同樣,擲出反面的話便要再擲一次。在如果在這次才擲到正面,你便得到4元﹝2^2﹞,如果是反面則再擲,一直繼續,直到擲出正面才結算。 總括而言便是「出現反面便再擲,如果出現正面你便得到x元,x是2的n-1次方(x=2^(n-1)),而n則是一共擲了多少次」。 這個遊戲的結果是一種「不確定的事情」﹝因為我不知道會出現多少次反面啊﹞,人們如何估量這種事情的價值?換句話說,就假設這個個銅板真是是1/2 機會出現正面,1/2 機會出現反面,你會願意付出多少錢來換取可以參加這個遊戲的權利?

Read Full Post »

Posted by Mr. Saturday 我們都看過一些統計數據,說台灣民眾之中,有超過七成或是八成認為媒體是台灣的亂源,這些人完全不相信媒體。 這些統計數據三不五時總是會被搬出來,久而久之,經過民眾的再三確認,媒體跟亂源畫上等號似乎是天經地義的事情,社會的共識,也好像是這樣子沒錯。好吧,我直接告訴各位,這些統計荒謬得可笑,錯得離譜。看到這邊,你可能會以為我居然要跳出來幫媒體說話。不是,我只是要跟你講,為什麼台灣人民痛恨媒體,但是媒體卻一天比一天猖狂。

Read Full Post »

你看到一套防毒軟件,這個軟件聲稱會對你下載的所有檔案都掃描一次,病毒偵測準確度達99%。 這個「99%」令你眼前一亮,心想︰「這個軟件看來相當可靠,準確度99%呢﹗﹗」於是你便把它買下,並成功把它安裝了。 安裝了這個軟件一段日子,有一天,這個軟件突然響起警報,這個時候最正常的問題便是「我下載的檔案真的帶有病毒嗎?」又或者說,這個軟件誤鳴的機率有多高? 你認為誤鳴率就是 1- 99% = 1% 嗎?

Read Full Post »

現在你的眼前有三扇門1 2 3 ,其中一扇門背後的是巨額獎金,另外兩扇門的背後則是「很感謝你參加這個遊戲,祝你下次好運」,遊戲主持人示意你選擇其中一扇。在主持人和觀眾的喧鬧聲之中,你戰戰兢兢地選擇了1號 。這個時候遊戲主持人問︰「你真的要選擇1號門嗎?」你說︰「是的。」在這個時候,遊戲主持人沒有立刻揭盅,他把2號門打開了,你很緊張的往裡面看,幸而2號門並沒有你在造夢時也想得到的獎金,正當你鬆一口氣的時候,主持人對你說︰「我現在給你多一次機會,你要堅持選你的1號門,還是轉為選3 號門呢?」 這個便是十分有名的Monty Hall problem,這個名字來自當年美國一個類似遊戲的節目主持Monty Hall。 你會怎麼選?

Read Full Post »

算術平均數(下)

在算術平均數(上)文中,我一開始便說算術平均數(Arithmetic mean)是以刪掉資訊來換取簡潔的表達,但文中只簡單提及了在用平均數時我們失去了方差(Variance)的資訊,這次就讓大家看看平均數在不同的情況下,分別刪掉了什麼吧。 還記得Windows XP 和Mac OS X的例子嗎?如果你為你的程式在Windows XP 和Mac OS X 的環境下分別進行了1000次測試,得出的結果是︰在Windows XP中程式運行所需時間平均30秒,而在Mac OS X中則平均10秒。當有人問及你相關的資料時,你可以有以下三種回答方法︰ (1)XP 第1次︰32秒,XP第2次︰29 秒,XP第3次︰31秒…..OS X 第1次︰8秒,OS X第2次︰12 秒………………………(把所有測試的結果通通列出來) (2)OS X 的1000 次測試中,平均時間10 秒,Windows XP 的1000 次測試中,平均時間30秒 (3)在Windows XP 和Mac OS X 的2000 次測試中,平均時間20 秒。 有看算術平均數(上)的讀者們,應該知道我又想說「(3) 的資訊比(2)少,(2)的資訊比(1)少」和「三個答案沒有誰對誰錯,答哪一個才好是取決於對方想要什麼」但如果我們是知道對方想要什麼資料的話,這三個答案便有好壞之分。

Read Full Post »

算術平均數(上)

統計學工具,可以協助我們把多餘的資訊刪減,令人們可以更清楚方便地看到他們需要的資訊。以大家一定懂得的「算術平均數」(Arithmetic Mean)為例,如果你編寫了一個改圖程式,為了測試它的速度。你在不同的環境,不同的時間,重複運行某功能1000次,然後把所需時間記下來。這個時候,如果有人問及你一些有關你的程式的運行速度的資料,你可以把你的測試告訴他。在報告測試結果的時候,你可以選擇說︰ 1. 第1次︰38秒,第2次︰36秒,第3次︰37秒,第4次︰38秒….(把所有記下來的時間讀出來)……….. 或 2. 平均運行時間是37秒。 這兩個答案沒有誰對誰錯,要回答哪一個就取決於對方想要什麼?想要仔細的資訊?還是想要一個簡潔,但又具代表性的數字?但可以肯定的是,2.的資訊比1. 的要少。因為如果我得到1. 中的資訊,我可以把2.所提及的平均數計出來,但我只知道2.的話,卻不可以把1.的資料計出來。換句話說,為了換取簡潔,我們使用「平均數」這個工具,把一些我們認為是多餘的資訊刪去了。 讀者可能會說,這只是小朋友都懂的算術題,有必要說得這樣複雜嗎?如果這些說話只是在一般朋友間的對話中,可能問題不大,反正大家在很多時候都只是想看個大概,細節上有什麼誤解也無傷大雅。但當這些平均數被廣泛用在廣告、公共資訊(如天氣預告)和資訊紀綠(如成績單)中,我們就得費點工夫去了解,這些平均數是在說些什麼了,或者他們刪除了什麼了。

Read Full Post »