※ 本文轉寄自 ptt.cc, 文章原始頁面

標題

[討論] 民調統計之亂---最終章

時間2023-11-22 02:25:28

最新2023-11-22 11:51:00

留言102則留言，34人參與討論

推噓26 ( 29推3噓70→ )

小弟看到版上很多人對民調統計很有興趣, 剛好這幾天我有一點粗淺的研究成果, 提出來和大家分享一下. 如果有錯還請不要見怪. 先講結論: 1. 如果沒有每一份民調原始數據, 無從判斷是3:3或是5:1, 2. 國民黨版本如果在某一份民調中, 柯侯和侯柯的正相關性r高達0.9, <-這個r值每份民調都不一樣那麼民調之中柯侯只要領先侯柯1.34%, 統計上就代表柯侯顯著勝過侯柯 3. 在民眾黨版本中如果在某一份民調中, (柯侯-賴蕭) 與 (侯柯-賴蕭)的正相關性r高達0.9, 這個r值每份民調都不一樣那麼民調之中(柯侯-賴蕭)只要領先(侯柯-賴蕭)2.68%, 統計上就代表柯侯顯著勝過侯柯. 這個第3點, 黃珊珊陳智菡在民眾黨的發布記者會快結束前, 答媒體問時有提到從我的統計學專業來看, 民眾黨的理論基礎確實比國民黨好, 不過這未必代表他們贏了. 仍要視每份民調的r值而定. 以下請看詳細解說: -------------------------------------------------- p是支持率, n是樣本數 var(p) = p(1-p)/n, 開根號再乘以1.96就是抽樣誤差 (sqrt(var(p)*1.96)) 如果只是粗略估計, 一般把p用0.5帶入, (0.5*0.5和0.4*0.6也差不多). 當n=1068時, 根號(var(p))*1.96 = 3% 比較兩位候選人支持率p1,p2 如果選用p1-p2這個值來做決策, var(p1-p2) = Var(p1)+Var(p2) - 2*r*根號(var(p1)*var(p2)) r是大家高中都學過的相關係數-1<r<1 如果粗估p1=p2=p, 那麼var(p1)=var(p2) var(p1-p2) = 2*var(p) - 2*r*var(p) (1) -1<r<0 適用於選舉, 一個人投給A就不能投給B, 相關性<0 (1.1) 當r=-1時, 適用情況: 在一對一的選舉中, 一人沒有第三種選項例如在新加坡, 投票是全民義務, 不能不投票, 可以選擇回答投票給李某p1, 或是選擇回答投給黃某p2. 沒有第三個選擇也就是p1和p2完全負相關, r=-1 var(p1-p2)=4*var(p), 開根號之後得到誤差是原本的2倍,也就是6% 也就是李某要勝過黃某6%才算超過誤差範圍. (1.2) r約為-0.5 因此如果在台灣, (1.1)的假設就不適用一個人除了國民黨p1和民進黨p2以外, 還有第三種選擇,那就是投票日當天選擇出去玩, 兩邊都不投票. 所以台灣選舉的r約等於-0.5, 中度負相關. var(p1-p2) = 3*var(p), 開根號之後是原本的1.73倍=1.73*3=5.3% 這也就是不少民調專家,政黨操盤手所說, 一對一選舉要贏5%以上才算是贏! 例如以下這篇報導: 國民黨立委提名／現任者民調贏逾5％才徵召 https://news.ltn.com.tw/news/politics/paper/863837 (2) 0<r<1適用於這次柯侯與侯柯的民調, 一個人可能會同時回答支持柯侯與侯柯 (2.1)當r=0, 也就是p1與p2二者獨立的時候, 如果一個回答柯侯的人, 他沒有機會影響侯柯的支持度;反之亦然. 那麼p1,p2的相關性可能就很低, r接近0. 例如聯合報的這份問卷: Q7和Q8不會問同一個人. 【Q7及Q8隨機呈現】 7.如果郭台銘最後不參選，藍白整合是柯文哲當正，請問在【隨機提示選項1-2】組合中，您會支持那一組擔任總統副總統？ (1)柯文哲搭配侯友宜[柯侯配] (2)賴清德搭配蕭美琴[賴蕭配] (7)都不支持/支持其他人 (8)未決定、無意見或拒答 8.如果郭台銘最後不參選，藍白整合是侯友宜當正，請問在【隨機提示選項1-2】組合中，您會支持那一組擔任總統副總統？ (1)侯友宜搭配柯文哲[侯柯配] (2)賴清德搭配蕭美琴[賴蕭配] (7)都不支持/支持其他人 (8)未決定、無意見或拒答當r約為0時, var(p1-p2) = 2*var(p), 開根號等於1.414*3% = 4.2% 也就是柯侯要贏過侯柯4.2%才算柯侯贏有人會問(2.1)和(1.1)有什麼不同? (2.1)的每一個人回答問題都是獨立自主決定的,不受他人影響,(r接近0) 然而(1.1)之中, 投給李某的人類似於同時投了反對票給黃某,因此r=-1 這點滿有趣的, 有興趣的讀者可以自行研究. (2.2) 承(2.1) 0.8<r<1 民調公司也可能設計以下問卷以下是美麗島十月國政民調的問卷: [Q15與Q16由電腦隨機排序] 15、請問，如果明年大選只有2組參選，1組是國民黨侯友宜和民眾黨柯文哲合作的「侯柯配」，另1組是民進黨賴清德和蕭美琴的「賴蕭配」，您可能會投給哪1組？【關鍵字串由電腦隨機排序】 (1)侯柯配46.1% (2)賴蕭配36.8% (3)不投票/投廢票8.5% (4)未明確回答8.6% 16、請問，如果明年大選只有2組參選，1組是民眾黨柯文哲和國民黨侯友宜合作的「柯侯配」，另1組是民進黨賴清德和蕭美琴的「賴蕭配」，您可能會投給哪1組？【關鍵字串由電腦隨機排序】 (1)柯侯配47.4% (2)賴蕭配35.3% (3)不投票/投廢票7.2% (4)未明確回答10.1% 如果類似於以上的問卷,一個回答柯侯的人有很高的機率同時也回答侯柯因此p1和p2是高度正相關, r=0.8以上如果假設r=0.8, var(p1-p2) = 2*var(p) - 2*r*var(p) var(p1-p2) = 0.4*(var(p)), 開根號後是原本的0.65倍, 不但沒增加, 還縮小了當n=1068時, 這個誤差是3*0.65 = 2%左右, 這個含意是: "如果柯侯和侯柯的正相關性高達0.8, 那麼民調之中柯侯只要領先侯柯2%, 統計上就代表柯侯顯著勝過侯柯" (2.3) 如果r=1, 也就是所有回答柯侯的人同時都回答侯柯, 無一例外. var(p1-p2) = 2*var(p) - 2*r*var(p) = 0 誤差為0的含意是, 只要柯侯高過侯柯1票, 例如40.05%比40%, 那麼柯侯統計上就顯著勝過侯柯問題是這是不可能發生的, 因為r=1時,所有投給柯侯的人同時都投給侯柯. 因此, 總言之, r越是接近1, 誤差就越接近0 柯侯需要領先侯柯的%數就越低. 但結果仍需視每份民調不同的r值而定. 備註1. 11/17號民眾黨曾經發布一個消息, 在談判當天晚上六點以前要上傳原始資料, 目的很可能就是要對各家民調的相關性r進行檢查. 備註2. 民眾黨記者會快結束時, 陳智菡回答記者時曾說 "變異值很高, 讓3%已經很多"之類的話, 黃珊珊也提到,"變異值是1.3幾, 乘以2絕對小於3%" 記者當然聽不懂. 她們就是在說明本文中(r=0.9)的情況. 把r=0.9帶入2*var(p) - 2*r*var(p), 開根號再乘以1.96 根號(0.2*0.5^2/1086)*1.96 算出來剛好是1.34% 正是黃珊珊口中"1.3幾" 我沒有政治立場, 不過以我的統計學專長, 我認為民眾黨還是懂統計的. 參考資料: 1.Mathematical Statistics, Rice 3rd 11.3 2.林澤民教授文章 https://blog.udn.com/nilnimest/24057891 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.243.40 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1700591130.A.382.html

民調

674[新聞] NOW民調／總統大選三腳督！侯康配支持度4

626Re: [新聞] 美麗島民調／賴蕭配持續領先柯盈配觸底

571Re: [新聞] 民調／柯文哲年輕票重挫　侯康配猛衝「

558[爆卦] 華視新聞移花接木木炭民調

550Re: [新聞] TVBS民調／三組候選人激戰賴蕭配僅領先侯康配1個百分

102 則留言

→

Supasizeit11/22 02:27, 1F

智菡報氣象的應該有學統計203.204.194.135

推

Greatgenius11/22 02:29, 2F

蔡正元就講了誤差的誤差很小101.12.42.17

→

Greatgenius11/22 02:30, 3F

這幾個還要點臉的不會硬拗科學101.12.42.17

推

henryliao11/22 02:32, 4F

問題是民調有年齡市話手機會加權過114.42.67.55

推

miha8042511/22 02:35, 5F

人真好幫忙治療失眠111.252.198.101

噓

ILoveKMT11/22 02:43, 6F

跟國民黨合就是不爽啊101.137.195.78

推

BlackAndWhit11/22 02:52, 7F

感謝兩個小丑提升國民的統計學42.74.111.19

※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 02:59:39

推

partsex11/22 03:02, 8F

這個明明很基礎的統計學啊怎麼一堆人不36.235.187.213

→

partsex11/22 03:02, 9F

會？36.235.187.213

→

partsex11/22 03:02, 10F

兩題互比卻一直拿單一題的抽樣誤差來當36.235.187.213

→

partsex11/22 03:02, 11F

誤差36.235.187.213

→

partsex11/22 03:04, 12F

今天如果是一題「侯 VS 柯」做1068份36.235.187.213

→

partsex11/22 03:04, 13F

才是正負3%36.235.187.213

→

partsex11/22 03:04, 14F

你今天是36.235.187.213

→

partsex11/22 03:04, 15F

第一題：侯柯 vs 賴蕭36.235.187.213

→

partsex11/22 03:04, 16F

第二題：柯侯 vs 賴蕭36.235.187.213

→

partsex11/22 03:04, 17F

然後第一題 vs 第二題那就不會是3%了36.235.187.213

→

partsex11/22 03:11, 18F

在兩題高度相關的狀況下36.235.187.213

→

partsex11/22 03:11, 19F

（第一題選賴蕭的到了第二題多數還是繼36.235.187.213

→

partsex11/22 03:11, 20F

續賴蕭）36.235.187.213

→

partsex11/22 03:11, 21F

（第一題選候柯的到了第二題多數繼續柯36.235.187.213

→

partsex11/22 03:11, 22F

侯）36.235.187.213

→

partsex11/22 03:11, 23F

高度正相關誤差只會縮小36.235.187.213

※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 03:15:57

→

kh74911/22 03:19, 24F

樓上, 那要看原始問卷而定,你看聯合報的r=036.224.243.40

推

gino1245611/22 03:22, 25F

用相關性下去會計博士會跟你說心中有110.28.81.194

→

gino1245611/22 03:22, 26F

大我就夠了110.28.81.194

推

nhk12387119211/22 03:38, 27F

嘖嘖嘖27.51.1.112

推

forb982301811/22 03:39, 28F

問題是協議寫那3位專家判斷啊111.248.132.129

→

forb982301811/22 03:40, 29F

https://i.imgur.com/5P1Pw9E.jpg111.248.132.129

→

kh74911/22 03:44, 30F

樓上, 法律問題我不懂, 我只懂統計問題.36.224.243.40

推

diyaworld11/22 03:52, 31F

其實，這幾天民調會不準的最大原因，180.176.140.130

→

diyaworld11/22 03:52, 32F

就是綠營反串仔的比例根本無從計算180.176.140.130

→

diyaworld11/22 03:52, 33F

侯柯跟柯侯兩題出現，綠的一定都投賴180.176.140.130

→

diyaworld11/22 03:52, 34F

？要確定捏，那2020年韓國瑜，跟2018180.176.140.130

→

diyaworld11/22 03:52, 35F

洪秀柱的黨內初選民調，怎麼選可能出180.176.140.130

→

diyaworld11/22 03:52, 36F

現成功5成數據，最後陰溝翻車180.176.140.130

→

diyaworld11/22 03:54, 37F

所以要預估到底要讓幾趴才是安全消除180.176.140.130

→

diyaworld11/22 03:54, 38F

反串仔的干預？這個就真好吵了180.176.140.130

→

diyaworld11/22 03:54, 39F

連美麗島都放棄上周五的民調公佈了180.176.140.130

→

a237992811/22 08:25, 96F

的問題還誤差一個+3%，一個-3%，擺明就112.78.83.250

→

a237992811/22 08:25, 97F

是想翻桌而已。112.78.83.250

推

tomandnico11/22 08:30, 98F

好奇統計誤差很小但每個卻都不一樣111.251.192.112

→

tomandnico11/22 08:30, 99F

結果跟現實也不完全相同111.251.192.112

→

deniro14336811/22 08:47, 100F

如果候柯不等於柯候那正相關值會一118.150.153.195

→

deniro14336811/22 08:47, 101F

樣嗎118.150.153.195

→

deniro14336811/22 08:51, 102F

雖然我相信還是3：3 單純論統計的118.150.153.195

→

deniro14336811/22 08:51, 103F

差異118.150.153.195

噓

kkjjrtlym11/22 09:45, 104F

對你說的都對快去跟三位專家講125.227.249.196

推

formice11/22 11:36, 105F

整篇都中文，但是臥沒有立場114.39.215.145

推

felixgene11/22 11:51, 106F

專業推114.42.97.137

kh749 作者的近期文章

5HatePolitics

[討論] 某個新聞台最近YT點閱率暴衝...

https://imgur.com/a/Zn2GHuX 資料來源:socialblade TVBS>台視>三立>東森>中天>民視就參考一下吧, 哪個新聞頻道比較公正中立客觀, 人民還是有判斷力的.

1HatePolitics

Re: [討論] 匯流賴蕭37.8 侯趙29.0 柯吳24.7

匯流的調查結果向來對郭台銘的支持者特別有利, 1. 藍白合破局前, 匯流從來不做三角督民調 2. 匯流民調郭台銘的支持度長期維持在12%, 高於美麗島7%,TVBS9%. 3. 十月底藍白合的關鍵期, 匯流做出郭台銘15.8%的數字,是美麗

2HatePolitics

Re: [討論] TVBS民調跟木炭街訪，相信誰？

這幾天公布的民調分兩派, (1)侯柯在誤差範圍內: 賴侯柯匯流 36.7 26.4 25.2 鏡新聞 33.5 25.2 23.7 (2)侯大幅領先柯: 美麗島 34.7 31.2 16.8 TVBS 36 32 22 到底哪一派比較

4HatePolitics

Re: [討論] TVBS民調跟木炭街訪，相信誰？

※ 引述《eagleofsouth (南方之鷹)》之銘言： : 其實這個題目的答案當然是相信TVBS : 可是為什麼有人會反智的去相信木炭？ : 木炭粉現在最喜歡吹噓的是14連勝！ : 我不知道他們有沒有刻意隱瞞不準的預測 : 但是所謂的「

5HatePolitics

Re: [討論] 退一步九份民調然後不讓統計誤差

※ 引述《f22313467 (軍曹)》之銘言： : 如果今天兩邊都有爭執的部分， : 國民黨認為覺得應該採納九份民調， : 而民眾黨覺得統計誤差有爭議， : 那不如各退一步， : 使用九份民調，然後不用統計誤差的禮讓， : 直接看民調多少

16HatePolitics

Re: [討論] ET總統民調賴34.9 侯27.3 柯26

更多 kh749 作者的文章...