看新聞講到市調數據的時候,末尾常有一串說明,例如抽樣誤差(即誤差範圍)、信心水準之類。如果再仔細一點,還會發現樣本數 1,068 人出現頻率頗高。
1,068,業界的秘密數字。
量化調查,多少「量」才具代表性?
這個大哉問得拆解信心水準、抽樣誤差、母體變異數等項目來看。簡言之,1,068 是綜合種種條件後,最適當的數字。
===== 情境分隔線:現主時愛酸宗痛啦 =====
假設現在要選總統了,候選人小娟、中寶、大強三人競爭激烈,香蕉日報想透過市調來看誰勝出機率大。以「明天就要投票了,你會選誰」為題做電話訪問,要先做三項設定才能決定要找多少樣本數。
- 希望結果的「抽樣誤差」最多只有 ±3%。也就是取樣調查如果有 48%的人支持小娟,實際情況可能在 45%~51% 之間。
- 假設重複進行調查 100 次,其中 95 次結果落在抽樣誤差內。換句話說,對這份調查的「信心水準」為 95%。
- 預估結果的「分布比例」為何。由於無前例可循,一般會抓 50%(註)。
將上面幾個條件丟進統計學公式計算,得出至少要問 1068 人。理論上,問更多當然更精細,不過要花更多錢、更多時間,所以 1068 就成為相對具成本效益的數字。
話說既然有公式,我們就來算一下:
===== 數學分隔線 =====
樣本數計算公式:
Z:根據信心水準查表得到的 Z 值(前面假設的 95%,其 Z 值約為 1.96)
p:母體中該特徵的預估比例(前面假設為 50%)
e:可接受的抽樣誤差(前面假設為 ±3%)
如果 p=0.5、Z=1.96 不變,透過更動樣本數回推抽樣誤差,變化會是這樣:
當樣本數=600
抽樣誤差=4.00%
當樣本數=800
抽樣誤差=3.46%
當樣本數=1,068
抽樣誤差=3.00%
當樣本數=1,200
抽樣誤差=2.83%
當樣本數=1,400
抽樣誤差=2.62%
當樣本從 600 增到 800,抽樣誤差自 4% 降至約 3.5%;樣本從 1,068 增到 1200,抽樣誤差自 3% 降至 2.8%。從這個態勢不難觀察到:當樣本數大於 1,000 後,增加樣本對減少抽樣誤差的貢獻越來越小,亦即需要投入更多時間與成本,才能獲得減少抽樣誤差 0.5 %的可能,不具有成本效益。對比之下,1,068 兼顧學理面與實務面,所以成為市調業界常用樣本數。
另一方面,也有依據 1,068 微調的。比方以市調聞名的美國蓋洛普公司,常以 1,000 人為單位,回推誤差範圍約 ±3.1%,也是具代表性又符合經濟效益的作法。
註 :當有以前的參考資料,可預估調查的可能結果,P 就會用參考資料來帶入,設算所需要的樣本數。但沒有把握或者沒有參考資料來預測可能的結果,就會以最大風險來設定P,則為 0.5。因為 0.5*0.5=0.25 是各種組合相乘後數值最大的組合(例:0.1*0.9=0.09、0.4*0.6=0.24)。
了解更多市調專業眉角,歡迎來 DSIGroup 典通喝咖啡:https://www.dsigroup.com.tw/contact