※ 本文轉寄自 ptt.cc, 文章原始頁面
[討論] 民調統計之亂---最終章
小弟看到版上很多人對民調統計很有興趣,
剛好這幾天我有一點粗淺的研究成果, 提出來和大家分享一下.
如果有錯還請不要見怪.
先講結論:
1. 如果沒有每一份民調原始數據, 無從判斷是3:3或是5:1,
2. 國民黨版本
如果在某一份民調中, 柯侯和侯柯的正相關性r高達0.9, <-這個r值每份民調都不一樣
那麼民調之中柯侯只要領先侯柯1.34%,
統計上就代表柯侯顯著勝過侯柯
3. 在民眾黨版本中
如果在某一份民調中, (柯侯-賴蕭) 與 (侯柯-賴蕭)的正相關性r高達0.9,
這個r值每份民調都不一樣
那麼民調之中(柯侯-賴蕭)只要領先(侯柯-賴蕭)2.68%,
統計上就代表柯侯顯著勝過侯柯.
這個第3點, 黃珊珊陳智菡在民眾黨的發布記者會快結束前,
答媒體問時有提到
從我的統計學專業來看, 民眾黨的理論基礎確實比國民黨好,
不過這未必代表他們贏了. 仍要視每份民調的r值而定.
以下請看詳細解說:
--------------------------------------------------
p是支持率, n是樣本數
var(p) = p(1-p)/n, 開根號再乘以1.96就是抽樣誤差 (sqrt(var(p)*1.96))
如果只是粗略估計,
一般把p用0.5帶入, (0.5*0.5和0.4*0.6也差不多).
當n=1068時, 根號(var(p))*1.96 = 3%
比較兩位候選人支持率p1,p2
如果選用p1-p2這個值來做決策,
var(p1-p2) = Var(p1)+Var(p2) - 2*r*根號(var(p1)*var(p2))
r是大家高中都學過的相關係數-1<r<1
如果粗估p1=p2=p, 那麼var(p1)=var(p2)
var(p1-p2) = 2*var(p) - 2*r*var(p)
(1) -1<r<0 適用於選舉, 一個人投給A就不能投給B, 相關性<0
(1.1) 當r=-1時,
適用情況: 在一對一的選舉中, 一人沒有第三種選項
例如在新加坡, 投票是全民義務, 不能不投票,
可以選擇回答投票給李某p1, 或是選擇回答投給黃某p2. 沒有第三個選擇
也就是p1和p2完全負相關, r=-1
var(p1-p2)=4*var(p), 開根號之後得到誤差是原本的2倍,也就是6%
也就是李某要勝過黃某6%才算超過誤差範圍.
(1.2) r約為-0.5
因此如果在台灣, (1.1)的假設就不適用
一個人除了國民黨p1和民進黨p2以外,
還有第三種選擇,那就是投票日當天選擇出去玩, 兩邊都不投票.
所以台灣選舉的r約等於-0.5, 中度負相關.
var(p1-p2) = 3*var(p), 開根號之後是原本的1.73倍=1.73*3=5.3%
這也就是不少民調專家,政黨操盤手所說,
一對一選舉要贏5%以上才算是贏!
例如以下這篇報導:
國民黨立委提名/現任者民調贏逾5% 才徵召
https://news.ltn.com.tw/news/politics/paper/863837
(2) 0<r<1適用於這次柯侯與侯柯的民調, 一個人可能會同時回答支持柯侯與侯柯
(2.1)當r=0, 也就是p1與p2二者獨立的時候,
如果一個回答柯侯的人, 他沒有機會影響侯柯的支持度;反之亦然.
那麼p1,p2的相關性可能就很低, r接近0.
例如聯合報的這份問卷: Q7和Q8不會問同一個人.
【Q7及Q8隨機呈現】
7.如果郭台銘最後不參選,藍白整合是柯文哲當正,
請問在【隨機提示選項1-2】組合中,
您會支持那一組擔任總統副總統?
(1)柯文哲搭配侯友宜[柯侯配]
(2)賴清德搭配蕭美琴[賴蕭配]
(7)都不支持/支持其他人
(8)未決定、無意見或拒答
8.如果郭台銘最後不參選,藍白整合是侯友宜當正,
請問在【隨機提示選項1-2】組合中,
您會支持那一組擔任總統副總統?
(1)侯友宜搭配柯文哲[侯柯配]
(2)賴清德搭配蕭美琴[賴蕭配]
(7)都不支持/支持其他人
(8)未決定、無意見或拒答
當r約為0時,
var(p1-p2) = 2*var(p), 開根號等於1.414*3% = 4.2%
也就是柯侯要贏過侯柯4.2%才算柯侯贏
有人會問(2.1)和(1.1)有什麼不同?
(2.1)的每一個人回答問題都是獨立自主決定的,不受他人影響,(r接近0)
然而(1.1)之中, 投給李某的人類似於同時投了反對票給黃某,因此r=-1
這點滿有趣的, 有興趣的讀者可以自行研究.
(2.2) 承(2.1) 0.8<r<1
民調公司也可能設計以下問卷
以下是美麗島十月國政民調的問卷:
[Q15與Q16由電腦隨機排序]
15、請問,如果明年大選只有2組參選,1組是
國民黨侯友宜和民眾黨柯文哲合作的「侯柯配」,
另1組是民進黨賴清德和蕭美琴的「賴蕭配」,
您可能會投給哪1組?【關鍵字串由電腦隨機排序】
(1)侯柯配46.1% (2)賴蕭配36.8% (3)不投票/投廢票8.5% (4)未明確回答8.6%
16、請問,如果明年大選只有2組參選,1組是
民眾黨柯文哲和國民黨侯友宜合作的「柯侯配」,
另1組是民進黨賴清德和蕭美琴的「賴蕭配」,
您可能會投給哪1組?【關鍵字串由電腦隨機排序】
(1)柯侯配47.4% (2)賴蕭配35.3% (3)不投票/投廢票7.2% (4)未明確回答10.1%
如果類似於以上的問卷,一個回答柯侯的人有很高的機率同時也回答侯柯
因此p1和p2是高度正相關, r=0.8以上
如果假設r=0.8, var(p1-p2) = 2*var(p) - 2*r*var(p)
var(p1-p2) = 0.4*(var(p)), 開根號後是原本的0.65倍, 不但沒增加, 還縮小了
當n=1068時, 這個誤差是3*0.65 = 2%左右,
這個含意是:
"如果柯侯和侯柯的正相關性高達0.8,
那麼民調之中柯侯只要領先侯柯2%,
統計上就代表柯侯顯著勝過侯柯"
(2.3) 如果r=1, 也就是所有回答柯侯的人同時都回答侯柯, 無一例外.
var(p1-p2) = 2*var(p) - 2*r*var(p) = 0
誤差為0的含意是, 只要柯侯高過侯柯1票, 例如40.05%比40%,
那麼柯侯統計上就顯著勝過侯柯
問題是這是不可能發生的, 因為r=1時,所有投給柯侯的人同時都投給侯柯.
因此, 總言之, r越是接近1, 誤差就越接近0
柯侯需要領先侯柯的%數就越低.
但結果仍需視每份民調不同的r值而定.
備註1. 11/17號民眾黨曾經發布一個消息,
在談判當天晚上六點以前要上傳原始資料,
目的很可能就是要對各家民調的相關性r進行檢查.
備註2. 民眾黨記者會快結束時, 陳智菡回答記者時曾說
"變異值很高, 讓3%已經很多"之類的話,
黃珊珊也提到,"變異值是1.3幾, 乘以2絕對小於3%"
記者當然聽不懂.
她們就是在說明本文中(r=0.9)的情況.
把r=0.9帶入2*var(p) - 2*r*var(p), 開根號再乘以1.96
根號(0.2*0.5^2/1086)*1.96
算出來剛好是1.34% 正是黃珊珊口中"1.3幾"
我沒有政治立場, 不過以我的統計學專長,
我認為民眾黨還是懂統計的.
參考資料:
1.Mathematical Statistics, Rice 3rd 11.3
2.林澤民教授文章 https://blog.udn.com/nilnimest/24057891
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.243.40 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1700591130.A.382.html
102 則留言
kh749 作者的近期文章
[討論] 某個新聞台最近YT點閱率暴衝...
https://imgur.com/a/Zn2GHuX 資料來源:socialblade TVBS>台視>三立>東森>中天>民視 就參考一下吧, 哪個新聞頻道比較公正中立客觀, 人民還是有判斷力的.
Re: [討論] 匯流 賴蕭37.8 侯趙29.0 柯吳24.7
匯流的調查結果向來對郭台銘的支持者特別有利, 1. 藍白合破局前, 匯流從來不做三角督民調 2. 匯流民調郭台銘的支持度長期維持在12%, 高於美麗島7%,TVBS9%. 3. 十月底藍白合的關鍵期, 匯流做出郭台銘15.8%的數字,是美麗
Re: [討論] TVBS民調跟木炭街訪,相信誰?
這幾天公布的民調分兩派, (1)侯柯在誤差範圍內: 賴 侯 柯 匯流 36.7 26.4 25.2 鏡新聞 33.5 25.2 23.7 (2)侯大幅領先柯: 美麗島 34.7 31.2 16.8 TVBS 36 32 22 到底哪一派比較
Re: [討論] TVBS民調跟木炭街訪,相信誰?
※ 引述《eagleofsouth (南方之鷹)》之銘言: : 其實這個題目的答案當然是相信TVBS : 可是為什麼有人會反智的去相信木炭? : 木炭粉現在最喜歡吹噓的是14連勝! : 我不知道他們有沒有刻意隱瞞不準的預測 : 但是所謂的「
Re: [討論] 退一步 九份民調 然後不讓統計誤差
※ 引述《f22313467 (軍曹)》之銘言: : 如果今天兩邊都有爭執的部分, : 國民黨認為覺得應該採納九份民調, : 而民眾黨覺得統計誤差有爭議, : 那不如各退一步, : 使用九份民調,然後不用統計誤差的禮讓, : 直接看民調多少
→
推
→
推
推
噓
推
推
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
→
推
→
推
推
→
→
推
→
→
→
→
→
→
→
→
→
→
推
→
→
→
→
→
噓
推
推