※ 本文轉寄自 ptt.cc, 文章原始頁面
標題

Re: [討論] 認真問民調的一個統計問題

最新2023-11-23 20:36:00
留言25則留言,4人參與討論
推噓6 ( 6019 )
※ 引述《kh749 (ReturnTo)》之銘言: : ※ 引述《Mervivian ()》之銘言: : : 請問如果是區間估計, : : 假設統計誤差是3%, : : 那麼做出來的民調看起來是40%的, : : 其實真實值是37%到43%之間都有可能對吧? : : (95%信心水平下) : : 那問題是想問說, : : 真實值是從37%到43%之間任何數的可能性都一樣嗎? : : 還是說,真實值離40%越近的可能性就越大, : : 而真實值是37%或是43%雖然也有可能, : : 但是可能性會下降呢? : : 謝謝! 這就是讀書沒有讀通的典形,連自己在說什麼都不是很清楚,更遑論解釋給別人聽。 : 初等統計(高中統計)會告訴你這段: : 假設 : "所有選民都已經心有定見, : 沒有心猿意馬臨時改變的空間" : 例如, 10000個內政部登記符合投票資格 : 的選民當中有3800個支持. 那真實的p就是38%. : 這是一個"未知的固定數". : 那麼p=38%的機率是1, : 其他37.1%,41.2%那些其他所有數字的機率都是0 有讀書 : 很明顯,以上這是一個反人類認知的說法 沒讀通。 : 大家心裡可能都不贊同以上說法, 你解釋一下,大家心裡就可以接受了。 或者你沒有能力,我就替你解釋。 這個P=1是什麼意思? 這是代表必然是這樣。 以上一次總統選舉為例,蔡英文得票就是817萬, 蔡英文得票817萬的機率就是1,P=1, 其他得票816萬,818萬,552萬的機率,全部都是0。 有很難理解嗎?反什麼人類?別因為自己不懂就拉低全人類的水準好不好? : 不過參加大部的考試請照上面回答. : ------------------------------ : 雖然37.1和41.2的機率都是0, : 一個有用的訊息就是:37.1和41.2的發生機率是一樣的 : 不會因為41.2%比較靠近40%, 它發生的機率就比37.1%還來的高. : 當然, 這又是另一個反人類認知的結論. 錯。 別人問你,37.1和41.2的%,是他看到某民調是40%, 所以想問最後實際某候選人的得票率。 這能和上面的提到的,"未知的固定數"對於某個數字 (816萬,818萬,552萬,或者P=1的817萬)的機率一樣嗎? 根本兩種東西,別牛頭不對馬嘴的,將兩樣東西扯在一起。 正確的回答是: 如果該民調可信,沒有做手腳, 那該民調是40%的話, 因為41.2%比較靠近40%,根據常態分佈,它發生的機率就是比37.1%還來的高。 這裡簡單的解釋一下,民調的%究竟和那"未知的固定數"有什麼關係。 事情是這樣的,雖然蔡英文的得票就是817萬,這是必然的,P=1, 得票率就817/1430,57%多一點,但那是選了之後的現在, 2023年才知道的。 如果是在2019年,有人要預測(預測,這2隻字很重要)選舉結果, 你就不能叫他等到2023年,說到時我們就知道那"未知的固定數"了, 可以十分準確的,必然的,P=1的,知道蔡英文有817萬票, 因為那顯然是沒有用的。 那要怎麼辦呢? 除了占卜、問卦、坐時光機之外,想預測未來,還有一種方法, 那就是做民調。 雖然2020年才選舉,但到時要投票的人,現在2019年不也是全都在這裡嗎? 那問一問他們就好了。 好吧,到時有1931萬人有投票權,那就去問…… 呃。 實務上絕對不可能,只比坐時光機簡單一點。 於是,就只好問少一點的人。 假設2019年,你問了1000個人,550人說要投蔡英文,佔55%, 那到時選舉蔡的得票率多少? 57%多一點,蔡英文有817萬票,是必然的,P=1的。 又假設2019年,你問了1000個人,560人說要投蔡英文,佔56%, 那到時選舉蔡的得票率多少? 57%多一點,蔡英文有817萬票,是必然的,P=1的。 沒有其他可能。 其他得票816萬,818萬,552萬的機率,全部都是0。 那57%多一點,就是那在2019尚「未知的」一個「固定數」。 做民調就是想要「預測」它。 於是,那麼,問完1000個人,得來的55%、或者56%,又有什麼用呢? 首先要知道,這55%或者56%幾乎不可能準確的命中最後那固定數, 這是「連續區間」和「離散」的概念,是要自吹自擂自己有學統計時的基礎知識。 不嚴謹的解釋是,因為那是57%多一點,不是57%, 那個多一點是幾乎不可能命中的。 所以,要用「區間」來為那55%、或者56%,加闊猜度範圍, 通常是後面加個正負幾%。 然後這個加正負幾%,要加幾多才好呢? 其實沒規定。 但約定俗成,都是用95%信心區間。 信心區間不難,搞清楚就不高深,是很入門的,自吹自擂時要注意。 例如95%信心區間,就是有95%的信心,最後的那個「未知的固定數」, 會在猜度的區間內。 至於加正負多少%,才會令做民調的有信心,覺得最後「未知的固定數」會在區間內, 就倒是有點深,以下不細說。 結論是, : : 假設統計誤差是3%, : : 那麼做出來的民調看起來是40%的, : : 其實真實值是37%到43%之間都有可能對吧? 連以1%和99%做中心的正負0.幾%的區間都有可能 嘻嘻,這就是民調。 : : (95%信心水平下) 對啊,在37%到43%之間,只保證了95%的信心,其他區間總共可以分到剩下的5%。 : : 那問題是想問說, : : 真實值是從37%到43%之間任何數的可能性都一樣嗎? 不一樣。 : : 還是說,真實值離40%越近的可能性就越大, 以這份民調的猜測來說,是。 但真實值永遠都是那個「未知的固定數」,做民調充其量只是去猜, 嚴謹的說民調的%其實和真實值沒什麼關係。 : : 而真實值是37%或是43%雖然也有可能, 做民調只是猜,本質上和占卜問卦差不多,就你民調有根據科學方法, 預測起來理論上會稍微準一點。 所以真實值絕對有可能在1%或者99%,至於民調說40%什麼的, 嘻嘻,就猜不中囉,啾咪~ : : 但是可能性會下降呢? 我知道肯定有人要抬槓,說因為37.1和41.2的兩個點,其機率都幾乎等於0, 所以自己沒答錯。 但可惜,就算不看37.1和41.2為中心的附近「區間」41.2確實比37.1機率高, 單比較37.1和41.2,兩個幾乎等於0的點,也是可以的,41.2就是比37.1機率高。 : 不過想一想, 確實p只有一個, 就是38%. : ------------------------------ : 後來有了貝氏統計, 但是貝氏統計更反人類認知, 拜託多讀書吧,這段是完全沒有讀書。 : 貝氏統計認為37~43的每個數字的機率都是0, 連同38在內 這不是貝氏統計的認為,這是「離散」和「連續」的問題。 不嚴謀的說法,如果充許37~43的每個數字都有為正的機率, 當然每個個別的數字的機率都是0,你個別數字在數線上就是一點,那自然只能是0。 像40,真的會那麼準中正40嗎?40.1呢?40.01呢?40.001呢? 有這麼多數字去分,分完當然是無限接近0,可以直接寫做0了。 : 不過貝氏統計定義了區間的概念, 錯。有好好上課嗎?還是沒讀過大學? 下面不逐一挑錯了。 : 你抽樣出來的1068個樣本是40% : 那麼真實的p : 落在40~43的機率是47.5% : 落在37~40的機率是47.5% : 落在37~43的機率是95% : 總之符合以40%為中心的常態分佈. : 不過以上是建立在一個中性的假設下. : ---------------------------- : 但是貝氏統計不一定是中性假設, : 例如有些學者認為這個候選人先天上看起來就不怎麼行, : 雖然抽出來的1068個樣本是呈現40%支持率, : 但是先天要扣幾分 : 所以最後可能得到一個以35%為中心的常態分佈 : 但是這種情況, 需要有一個很懂選舉的人, : 來決定先天這個候選人要扣幾分. : -------------------------------------- : 最後這項比較符合人類的認知, : 也就是這個選舉專家能看出這個候選人的後勁是否夠強 : 配合民調的資料, 來估計這個候選人將來在投票的那天能得到多少選票. : 可能是以35%為中心的常態分佈, 也可能是一個以45%為中心的常態分佈. : 最後, 貝氏統計認為, 樣本數夠大的情況下, 選舉專家的主觀認知會被沖淡, : 如果蒐集了10000個樣本, 支持率還是40%, : 那麼貝氏統計會就會認為這是一個以40%為中心的常態分佈. 連基礎也錯,這想要做統計相關的工作一定是沒有位置。 難怪有這麼多高學歷的,卻總對社會不滿,就例如某族群…… -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 222.166.97.10 (香港) ※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1700695878.A.BC3.html

Re: 回文串

625
> Re: [討論] 認真問民調的一個統計問題
HatePolitics11/23 07:31

25 則留言

q347, 1F
這篇正解 一堆人不知道信賴區間跟總調查數211.78.38.134

q347, 2F
會影響後面那那個%數比例....211.78.38.134

kh749, 3F
我看完你這篇,我就明白為什麼你這麼聰明還36.224.220.216

kh749, 4F
找不到工作了。36.224.220.216

kh749, 5F
你引出的是貝氏統計學和頻率統計學的爭議。36.224.220.216

kh749, 6F
這沒有誰對誰錯的,就看哪種比較實用而已。36.224.220.216

kh749, 7F
很明顯你是一個貝氏的信仰者。但是頻率統計36.224.220.216

kh749, 8F
學不是你一個人就能完全否定掉的。36.224.220.216

kh749, 9F
順帶一提,你同意民調支持率是固定已知數,36.224.220.216

kh749, 10F
你又用貝氏的想法來解釋你所謂的機率。在我36.224.220.216

kh749, 11F
看來你已經錯亂了。該好好複習頻率統計學的36.224.220.216

kh749, 12F
內容。36.224.220.216

kh749, 13F
現在的研究所滿好考的,如果考不上台灣的統36.224.220.216

kh749, 14F
計所,申請一個國外水碩也不難的。或是台灣36.224.220.216

kh749, 15F
的很多研究所都很缺博士,有些都要停招了。36.224.220.216

kh749, 16F
趕緊去吧。36.224.220.216

Xceberus, 17F
不要丟臉了好嗎 kh74942.75.255.140

kh749, 18F
樓上,科學就是科學,不是人比較多就是真理49.218.99.39

kh749, 19F
49.218.99.39

diawboris, 20F
沒看懂為什麼p(41.2)>p(37). 是假設4038.70.166.139

diawboris, 21F
是真正的民調數字嗎?40本身是sample不?38.70.166.139

Xceberus, 22F
kh749連P的定義都不懂 不懂閉嘴也沒人會42.75.255.140

Xceberus, 23F
笑你42.75.255.140

kh749, 24F
統計是統計,討論統計的時候請不要把政治帶36.224.220.216

kh749, 25F
進來。36.224.220.216