2021年9月8日 星期三

統計顯著性:你的發現可能沒有你想的那麼重要

   統計上經常使用,又經常被誤解的一個概念,是統計顯著性(statistical significance)。例如,當學生寫論文時發現兩個組別間有顯著差異,通常都把它視作重要的,值得大書特書的差異。其實,「顯著」(significant)在此未必表示重要,統計上顯著的差異、相關、效果等,有時甚至是雞皮蒜毛的小事。

   統計顯著性是統計推論上的一個概念,我們可以用一個假設性的例子來說明。假設我們想知道:不同年齡層的台灣民眾,他們登記施打高端疫苗的比例是否也不同?那麼有兩種方法可以回答這問題。一是進行普查,詢問全台灣的成年人(未成年無法施打)有沒有登記施打高端疫苗,然後比較低年齡層(例如50歲以下)與高年齡層(例如51歲以上)的登記比例。但是通常我們沒有足夠的資源(人力物力和時間)這麼做,因此會採取第二個方法。第二個方法是利用隨機抽樣,[1] 從民眾裡抽出低年齡層與高年齡層的人進行調查,然後比較他們的登記比例。接下來的問題是:我們要看到樣本裡兩組之間有多大的差異,才敢說他們代表的群體(統計上稱為母體,在本例中即是全台灣的低年齡層成人與全台灣的高年齡層成人)之間的確有差異存在?

   譬如,假若樣本裡高低兩個年齡層的登記比例分別是10%5%,我們敢說母體裡這兩個年齡層真有差異嗎?很難說。因為即使母體裡這兩個年齡層的登記比例相同,我們也可能因為抽樣的原故,「剛好」抽到較多有登記的高年齡者和「剛好」抽到較少有登記的低年齡者。為此,我們需要做統計檢定,看看這種「剛好」、「巧合」的機會有多大。依統計慣例,如果巧合的機率低於百分之五,我們就「寧可相信」這結果並非巧合,就可結論說母體裡這兩個年齡層真有差異存在。在統計的用語上,這時我們會說兩組之間有統計上顯著的差異,或兩組之間的差異達到顯著水準。

   如果兩組樣本人數均是500人,登記比例分別是10%5%,那麼統計結果會告訴我們,這10%5%之間的差異只有0.0027(不到千分之三)的機會是巧合做成。[2] 所以依統計慣例,我們會說兩組之間有統計上顯著的差異。換言之,這時我們有把握相信「有差異」此一結論是可靠的:即使再三進行同樣的調查,我們還是可以得出「有差異」此一結論。

   如果兩組樣本人數均降到50人,而登記比例分別仍是10%5%,那麼統計結果會告訴我們,這10%5%之間的差異有0.345(超過百分之三)的機會是巧合做成。這時我們會說兩組之間差異未達顯著。換言之,這時我們沒把握相信「有差異」此一結論是可靠的:如果再三進行同樣的調查,可能發現差異小得多。如果兩組樣本人數再進一步降到各10人,而登記比例分別仍是10%5%,那麼統計結果會告訴我們,這10%5%之間的差異有0.679(接近百分之七)的機會是巧合做成。統計結果更不顯著,我們更「寧可相信」這差異是抽樣的巧合,實際上並不存在。

   從上述例子可見,樣本愈大,我們愈有信心相信有關的結果並非巧合做成。但即使差異、相關、效果等的確存在,它們也並不一定是重要的。例如,在上例裡10%5%的差異,在實務上是否值得重視,見仁見智,也視乎我們(或政府、醫界)可以針對這差異做些甚麼。而且,只要擴大樣本,我們就可愈發相信結果並非巧合做成,統計結果也愈來愈「顯著」,即使雞毛蒜皮的差異也不例外。承上例,如果兩組樣本人數均增至5,000人,登記比例即使變成10%8.8%,這1.2%的差異只有0.0398的機會是巧合做成;若登記比例即使變成6%5%,這1%的差異只有0.0283的機會是巧合做成。因此,所謂統計顯著性其實只代表結果的可靠性,與我們下結論的信心有關,與結果在實質上是否重要沒有必然關係。

   真正和實質重要性有關的,是統計結果(差異、相關等)的效果量(effect size)。這部分就留待下回分解了。


[1] 由於難以取得抽樣依據的名單(sampling frame,清冊)、拒訪和研究資源有限等因素,許多研究甚至無法真正做到隨機抽樣。但為討論方便,本文暫且假設可以做到隨機抽樣。

[2] 本文的兩組間百分比比較,是採取免費線上軟體MedCalc進行,網址是

https://www.medcalc.org/calc/comparison_of_proportions.php

反對同性性行為就是反科學?

  《天主教教理》說「同性戀的行為顯示嚴重的腐敗,聖傳常聲明『同性戀的行為是本質的錯亂』,是違反自然律的行為,排除生命的賜予,不是來自一種感情上及性方面的真正互補。在任何情形下同性戀行為是不許可的。」(教理 2357 條) [1] 這說法常受到支持同性戀者駁斥,其中包括從生物學...