※ 本文轉寄自 ptt.cc, 文章原始頁面
標題

[討論] 民調統計之亂---最終章

最新2023-11-22 11:51:00
留言102則留言,34人參與討論
推噓26 ( 29370 )
小弟看到版上很多人對民調統計很有興趣, 剛好這幾天我有一點粗淺的研究成果, 提出來和大家分享一下. 如果有錯還請不要見怪. 先講結論: 1. 如果沒有每一份民調原始數據, 無從判斷是3:3或是5:1, 2. 國民黨版本 如果在某一份民調中, 柯侯和侯柯的正相關性r高達0.9, <-這個r值每份民調都不一樣 那麼民調之中柯侯只要領先侯柯1.34%, 統計上就代表柯侯顯著勝過侯柯 3. 在民眾黨版本中 如果在某一份民調中, (柯侯-賴蕭) 與 (侯柯-賴蕭)的正相關性r高達0.9, 這個r值每份民調都不一樣 那麼民調之中(柯侯-賴蕭)只要領先(侯柯-賴蕭)2.68%, 統計上就代表柯侯顯著勝過侯柯. 這個第3點, 黃珊珊陳智菡在民眾黨的發布記者會快結束前, 答媒體問時有提到 從我的統計學專業來看, 民眾黨的理論基礎確實比國民黨好, 不過這未必代表他們贏了. 仍要視每份民調的r值而定. 以下請看詳細解說: -------------------------------------------------- p是支持率, n是樣本數 var(p) = p(1-p)/n, 開根號再乘以1.96就是抽樣誤差 (sqrt(var(p)*1.96)) 如果只是粗略估計, 一般把p用0.5帶入, (0.5*0.5和0.4*0.6也差不多). 當n=1068時, 根號(var(p))*1.96 = 3% 比較兩位候選人支持率p1,p2 如果選用p1-p2這個值來做決策, var(p1-p2) = Var(p1)+Var(p2) - 2*r*根號(var(p1)*var(p2)) r是大家高中都學過的相關係數-1<r<1 如果粗估p1=p2=p, 那麼var(p1)=var(p2) var(p1-p2) = 2*var(p) - 2*r*var(p) (1) -1<r<0 適用於選舉, 一個人投給A就不能投給B, 相關性<0 (1.1) 當r=-1時, 適用情況: 在一對一的選舉中, 一人沒有第三種選項 例如在新加坡, 投票是全民義務, 不能不投票, 可以選擇回答投票給李某p1, 或是選擇回答投給黃某p2. 沒有第三個選擇 也就是p1和p2完全負相關, r=-1 var(p1-p2)=4*var(p), 開根號之後得到誤差是原本的2倍,也就是6% 也就是李某要勝過黃某6%才算超過誤差範圍. (1.2) r約為-0.5 因此如果在台灣, (1.1)的假設就不適用 一個人除了國民黨p1和民進黨p2以外, 還有第三種選擇,那就是投票日當天選擇出去玩, 兩邊都不投票. 所以台灣選舉的r約等於-0.5, 中度負相關. var(p1-p2) = 3*var(p), 開根號之後是原本的1.73倍=1.73*3=5.3% 這也就是不少民調專家,政黨操盤手所說, 一對一選舉要贏5%以上才算是贏! 例如以下這篇報導: 國民黨立委提名/現任者民調贏逾5% 才徵召 https://news.ltn.com.tw/news/politics/paper/863837 (2) 0<r<1適用於這次柯侯與侯柯的民調, 一個人可能會同時回答支持柯侯與侯柯 (2.1)當r=0, 也就是p1與p2二者獨立的時候, 如果一個回答柯侯的人, 他沒有機會影響侯柯的支持度;反之亦然. 那麼p1,p2的相關性可能就很低, r接近0. 例如聯合報的這份問卷: Q7和Q8不會問同一個人. 【Q7及Q8隨機呈現】 7.如果郭台銘最後不參選,藍白整合是柯文哲當正, 請問在【隨機提示選項1-2】組合中, 您會支持那一組擔任總統副總統? (1)柯文哲搭配侯友宜[柯侯配] (2)賴清德搭配蕭美琴[賴蕭配] (7)都不支持/支持其他人 (8)未決定、無意見或拒答 8.如果郭台銘最後不參選,藍白整合是侯友宜當正, 請問在【隨機提示選項1-2】組合中, 您會支持那一組擔任總統副總統? (1)侯友宜搭配柯文哲[侯柯配] (2)賴清德搭配蕭美琴[賴蕭配] (7)都不支持/支持其他人 (8)未決定、無意見或拒答 當r約為0時, var(p1-p2) = 2*var(p), 開根號等於1.414*3% = 4.2% 也就是柯侯要贏過侯柯4.2%才算柯侯贏 有人會問(2.1)和(1.1)有什麼不同? (2.1)的每一個人回答問題都是獨立自主決定的,不受他人影響,(r接近0) 然而(1.1)之中, 投給李某的人類似於同時投了反對票給黃某,因此r=-1 這點滿有趣的, 有興趣的讀者可以自行研究. (2.2) 承(2.1) 0.8<r<1 民調公司也可能設計以下問卷 以下是美麗島十月國政民調的問卷: [Q15與Q16由電腦隨機排序] 15、請問,如果明年大選只有2組參選,1組是 國民黨侯友宜和民眾黨柯文哲合作的「侯柯配」, 另1組是民進黨賴清德和蕭美琴的「賴蕭配」, 您可能會投給哪1組?【關鍵字串由電腦隨機排序】 (1)侯柯配46.1% (2)賴蕭配36.8% (3)不投票/投廢票8.5% (4)未明確回答8.6% 16、請問,如果明年大選只有2組參選,1組是 民眾黨柯文哲和國民黨侯友宜合作的「柯侯配」, 另1組是民進黨賴清德和蕭美琴的「賴蕭配」, 您可能會投給哪1組?【關鍵字串由電腦隨機排序】 (1)柯侯配47.4% (2)賴蕭配35.3% (3)不投票/投廢票7.2% (4)未明確回答10.1% 如果類似於以上的問卷,一個回答柯侯的人有很高的機率同時也回答侯柯 因此p1和p2是高度正相關, r=0.8以上 如果假設r=0.8, var(p1-p2) = 2*var(p) - 2*r*var(p) var(p1-p2) = 0.4*(var(p)), 開根號後是原本的0.65倍, 不但沒增加, 還縮小了 當n=1068時, 這個誤差是3*0.65 = 2%左右, 這個含意是: "如果柯侯和侯柯的正相關性高達0.8, 那麼民調之中柯侯只要領先侯柯2%, 統計上就代表柯侯顯著勝過侯柯" (2.3) 如果r=1, 也就是所有回答柯侯的人同時都回答侯柯, 無一例外. var(p1-p2) = 2*var(p) - 2*r*var(p) = 0 誤差為0的含意是, 只要柯侯高過侯柯1票, 例如40.05%比40%, 那麼柯侯統計上就顯著勝過侯柯 問題是這是不可能發生的, 因為r=1時,所有投給柯侯的人同時都投給侯柯. 因此, 總言之, r越是接近1, 誤差就越接近0 柯侯需要領先侯柯的%數就越低. 但結果仍需視每份民調不同的r值而定. 備註1. 11/17號民眾黨曾經發布一個消息, 在談判當天晚上六點以前要上傳原始資料, 目的很可能就是要對各家民調的相關性r進行檢查. 備註2. 民眾黨記者會快結束時, 陳智菡回答記者時曾說 "變異值很高, 讓3%已經很多"之類的話, 黃珊珊也提到,"變異值是1.3幾, 乘以2絕對小於3%" 記者當然聽不懂. 她們就是在說明本文中(r=0.9)的情況. 把r=0.9帶入2*var(p) - 2*r*var(p), 開根號再乘以1.96 根號(0.2*0.5^2/1086)*1.96 算出來剛好是1.34% 正是黃珊珊口中"1.3幾" 我沒有政治立場, 不過以我的統計學專長, 我認為民眾黨還是懂統計的. 參考資料: 1.Mathematical Statistics, Rice 3rd 11.3 2.林澤民教授文章 https://blog.udn.com/nilnimest/24057891 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.243.40 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1700591130.A.382.html

102 則留言

Supasizeit, 1F
智菡報氣象的 應該有學統計203.204.194.135

Greatgenius, 2F
蔡正元就講了誤差的誤差很小101.12.42.17

Greatgenius, 3F
這幾個還要點臉的不會硬拗科學101.12.42.17

henryliao, 4F
問題是民調有年齡市話手機會加權過114.42.67.55

miha80425, 5F
人真好 幫忙治療失眠111.252.198.101

ILoveKMT, 6F
跟國民黨合 就是不爽啊101.137.195.78

BlackAndWhit, 7F
感謝兩個小丑提升國民的統計學42.74.111.19
※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 02:59:39

partsex, 8F
這個明明很基礎的統計學啊 怎麼一堆人不36.235.187.213

partsex, 9F
會?36.235.187.213

partsex, 10F
兩題互比 卻一直拿單一題的抽樣誤差來當36.235.187.213

partsex, 11F
誤差36.235.187.213

partsex, 12F
今天如果是 一題「侯 VS 柯 」做1068份36.235.187.213

partsex, 13F
才是正負3%36.235.187.213

partsex, 14F
你今天是36.235.187.213

partsex, 15F
第一題:侯柯 vs 賴蕭36.235.187.213

partsex, 16F
第二題:柯侯 vs 賴蕭36.235.187.213

partsex, 17F
然後 第一題 vs 第二題 那就不會是3%了36.235.187.213

partsex, 18F
在兩題高度相關的狀況下36.235.187.213

partsex, 19F
(第一題選賴蕭的 到了第二題多數還是繼36.235.187.213

partsex, 20F
續賴蕭)36.235.187.213

partsex, 21F
(第一題選候柯的 到了第二題多數繼續柯36.235.187.213

partsex, 22F
侯)36.235.187.213

partsex, 23F
高度正相關 誤差只會縮小36.235.187.213
※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 03:15:57

kh749, 24F
樓上, 那要看原始問卷而定,你看聯合報的r=036.224.243.40

gino12456, 25F
用相關性下去 會計博士會跟你說心中有110.28.81.194

gino12456, 26F
大我就夠了110.28.81.194

nhk123871192, 27F
嘖嘖嘖27.51.1.112

forb9823018, 28F
問題是協議寫那3位專家判斷啊111.248.132.129

forb9823018, 29F
[討論] 民調統計之亂---最終章

kh749, 30F
樓上, 法律問題我不懂, 我只懂統計問題.36.224.243.40

diyaworld, 31F
其實,這幾天民調會不準的最大原因,180.176.140.130

diyaworld, 32F
就是綠營反串仔的比例根本無從計算180.176.140.130

diyaworld, 33F
侯柯跟柯侯兩題出現,綠的一定都投賴180.176.140.130

diyaworld, 34F
?要確定捏,那2020年韓國瑜,跟2018180.176.140.130

diyaworld, 35F
洪秀柱的黨內初選民調,怎麼選可能出180.176.140.130

diyaworld, 36F
現成功5成數據,最後陰溝翻車180.176.140.130

diyaworld, 37F
所以要預估到底要讓幾趴才是安全消除180.176.140.130

diyaworld, 38F
反串仔的干預?這個就真好吵了180.176.140.130

diyaworld, 39F
連美麗島都放棄上周五的民調公佈了180.176.140.130

a2379928, 96F
的問題還誤差一個+3%,一個-3%,擺明就112.78.83.250

a2379928, 97F
是想翻桌而已。112.78.83.250

tomandnico, 98F
好奇統計誤差很小 但每個卻都不一樣111.251.192.112

tomandnico, 99F
結果 跟現實也不完全相同111.251.192.112

deniro143368, 100F
如果候柯不等於柯候那正相關值會一118.150.153.195

deniro143368, 101F
樣嗎118.150.153.195

deniro143368, 102F
雖然我相信還是3:3 單純論統計的118.150.153.195

deniro143368, 103F
差異118.150.153.195

kkjjrtlym, 104F
對你說的都對 快去跟三位專家講125.227.249.196

formice, 105F
整篇都中文,但是臥沒有立場114.39.215.145

felixgene, 106F
專業推114.42.97.137

kh749 作者的近期文章

[討論] 某個新聞台最近YT點閱率暴衝...
https://imgur.com/a/Zn2GHuX 資料來源:socialblade TVBS&gt;台視&gt;三立&gt;東森&gt;中天&gt;民視 就參考一下吧, 哪個新聞頻道比較公正中立客觀, 人民還是有判斷力的.
Re: [討論] 匯流 賴蕭37.8 侯趙29.0 柯吳24.7
匯流的調查結果向來對郭台銘的支持者特別有利, 1. 藍白合破局前, 匯流從來不做三角督民調 2. 匯流民調郭台銘的支持度長期維持在12%, 高於美麗島7%,TVBS9%. 3. 十月底藍白合的關鍵期, 匯流做出郭台銘15.8%的數字,是美麗
Re: [討論] TVBS民調跟木炭街訪,相信誰?
這幾天公布的民調分兩派, (1)侯柯在誤差範圍內: 賴 侯 柯 匯流 36.7 26.4 25.2 鏡新聞 33.5 25.2 23.7 (2)侯大幅領先柯: 美麗島 34.7 31.2 16.8 TVBS 36 32 22 到底哪一派比較
Re: [討論] TVBS民調跟木炭街訪,相信誰?
※ 引述《eagleofsouth (南方之鷹)》之銘言: : 其實這個題目的答案當然是相信TVBS : 可是為什麼有人會反智的去相信木炭? : 木炭粉現在最喜歡吹噓的是14連勝! : 我不知道他們有沒有刻意隱瞞不準的預測 : 但是所謂的「
Re: [討論] 退一步 九份民調 然後不讓統計誤差
※ 引述《f22313467 (軍曹)》之銘言: : 如果今天兩邊都有爭執的部分, : 國民黨認為覺得應該採納九份民調, : 而民眾黨覺得統計誤差有爭議, : 那不如各退一步, : 使用九份民調,然後不用統計誤差的禮讓, : 直接看民調多少
更多 kh749 作者的文章...