2021年10月1日 星期五

無法隨機抽樣我怎麼辦?

  社會科學的研究者常常需要做抽樣調查。調查如要得出足以可靠地推論到母體的結果,調查的樣本必須有代表性。理想上,研究者應利用隨機取樣或近似隨機的方法取樣,以取得具代表性,反應和母體接近的樣本。

  隨機取樣的一個基本條件,是母體裡每個單位(通常是人,也可能是家庭、公司等其他單位)被抽到的機率均相同。有時礙於一些困難,我們無法做到真正的隨機取樣,只能用近似隨機的方法獲得有代表性的樣本。例如,如果要在一所有一萬名學生的大學裡對學生進行抽樣調查,我們可以依據完整的學生名冊,從這一萬人裡隨機抽出N個人來訪問。這是隨機抽樣。但如果我們只是在校內學生經常出入的幾個路口,連續幾天從路過的學生裡隨機抽出共N個人來訪問,那得到的頂多是以近似隨機方法獲得的,有代表性的樣本,而非真正的隨機樣本──因為並非每個學生那幾天一定會經過那幾個路口,所以每個學生被抽到的機率並不完全相同。

  嚴格來說,只要不是完全以隨機程序取得的樣本,就是非機率樣本(non-probability sample)──無論樣本是否具代表性。要判斷非機率樣本的代表性,首先可看抽樣的程序。例如,如果你採用上述多路口、多天的抽樣,你的樣本「大概」會有不錯的代表性。但如果你只用一個白天的時間在學校的大門進行抽樣,那樣本肯定沒代表性(至少很難令人相信那有代表性),因為許多學生都不會在那時間、那地點進出校園。其次,可以用統計方法檢驗樣本的代表性;通常的做法是比較樣本與母體在一些人口變項的分布上是否「夠接近」。例如,樣本裡的男女比例、年齡分布是否和母體裡的相近。

  如果抽樣真是「完全」隨機的,並且樣本夠大(例如七八百人以上),大概不必擔心它的代表性。而且,隨機樣本(或稱機率樣本)除了具有代表性以外,它還可以讓我們依據統計原理計算抽樣誤差,也就是從樣本得出的統計數字(例如樣本裡有運動習慣者的百分比)和母體裡數字(母體裡有運動習慣者的百分比)之間的差距。至於前述的非機率樣本,無論它們有多大的代表性,我們都無法估算抽樣誤差。

  但抽樣真的可以做到完全隨機嗎?很難。抽樣的過程必須是自始至終都是隨機的,才是完全隨機。即使研究者有足夠的線索與資源,從母體裡隨機抽人訪問,但也要人們願意受訪才成。如果只有極少的人拒訪或聯絡不到,樣本的隨機性大概沒有問題;但如果有高達25%的人拒訪或聯絡不到,樣本便很可能有偏差,不是隨機的。例如,生活忙碌的人既難找到時間運動,也不願意花時間受訪,這會使一個看似隨機的調查高估有運動習慣者的比例。

  你或許會覺得上述的想像情境過於誇張。你可能會這樣想:「25%?怎麼可能,只要我好好做,拒訪率一定會遠低於25%。」讓我們來看一下現實吧。十年前(200210月),聯合報進行了一項有關退休規畫的調查,拒訪率是25%。今年(2021年)6月,TVBS針對民眾對蔡英文的滿意度進行調查,拒訪率是21%;今年7月,TVBS針對民眾對高端疫苗的信心做調查,拒訪率是25%20139月,聯合報針對民眾有關兩岸互動的態度進行調查,拒訪率更高達40%。那其他媒體或民調機構的調查又如何呢?答案是「無可奉告」,因為他們都乾脆不提拒訪人數或拒訪率了。甚至是聯合報,最近都似乎不提了。如果你是一個研究生,你相信自己的研究資源會比這些媒體和機構更多更好,可以有更低的拒訪率嗎?

  所以,別怕你無法隨機抽樣,因為你並不孤單。我從來只要求學生盡其所能取得具代表性的樣本,[1] 不要求他們做到隨機抽樣。如果研究生做的調查研究一定要隨機抽樣,恐怕許多學生無法畢業。事實上,放眼台灣社會科學領域的博碩士論文,也沒有多少篇是真正做到隨機抽樣的。


[1] 例如採用配額抽樣( quota sampling)而非便利抽樣(convenience sampling)。

沒有留言:

張貼留言

反對同性性行為就是反科學?

  《天主教教理》說「同性戀的行為顯示嚴重的腐敗,聖傳常聲明『同性戀的行為是本質的錯亂』,是違反自然律的行為,排除生命的賜予,不是來自一種感情上及性方面的真正互補。在任何情形下同性戀行為是不許可的。」(教理 2357 條) [1] 這說法常受到支持同性戀者駁斥,其中包括從生物學...