※ 本文轉寄自 ptt.cc, 文章原始頁面
看板Gossiping
標題

Re: [問卦] 我不懂統計,有朋友送我這張圖有卦嗎?

留言88則留言,25人參與討論
推噓23 ( 24163 )
認真回 這篇文章在講的事情是error propagation 如果我有兩個實驗數據 這兩個數據是獨立量測的 那我測到的第一組是A+/-a 第二組是B+/-b 假設你的實驗量總是常態分佈 有統計顯著意義應該是要 |A-B|>sqrt(a^2+b^2) 舉例來說 如果A=40 B=44 a=b=3 他認為統計顯著意義應該要是 |40-44|>sqrt(3^2+3^2)=4.26 但這條沒有成立 所以沒有統計顯著意義 那比較confidence interval的意義是甚麼呢 就是當我們設定95%信心水準樣本數1000 母體數很大的時候不太重要 但我們可以假設個一千萬 那對應的confidence interval大約是3% 也就是說我做無限次調查的時候 有95%的結果我可以肯定 支持某個選項的比例跟某個數值A的差距在3%之內 那在某些社會科學(有些自然科學好像也是)的慣例中 在誤差範圍內=在誤差範圍外的相反 甚麼是在誤差範圍外 就是我可以肯定我量測到的數值跟A的差距不是誤差導致的 換句話說就是 在誤差範圍內=A跟B的差距有可能是誤差導致的 但你可能會問這樣的機率很小怎麼辦 這就是為甚麼一開始要設定95%信心水準 當設定信心水準之後你基本上就可以確定95%情況(母體真實情況)的範圍 接著再來比較這95%情況下有沒有可能(有沒有一種母體) 抽樣調查有可能測到A也有可能測到B 如果有可能 就是在誤差範圍內 如果不可能 就是在誤差範圍外 舉例來說 調查你喜歡買星巴克嗎 1是喜歡 0是不喜歡 母體可能是 100011111000 支持率是41% 也可能是 110011111000 支持率是58% 也可能是 110000000000 支持率是17% ... 但你調查的時候只抽3個 你抽到 010 所以喜歡比例是33% 但有沒有誤差值? 有 95%信心下 誤差大概是50% 在這95%的母體中 有沒有可能有一個母體的真實支持率是60%? 有 有沒有可能有母體的真實支持率是90%? 沒有 (根據你的實驗結果 這樣的母體存在的機率不到5%) 為甚麼可以用實驗結果反推母體? 這也很簡單 因為你測到110 所以有沒有可能有母體是 000000000000? 不可能 所以實驗結果是可以反推可能的母體 跟他對應的比例的 所以統計觀念就進來了 95%信心水準下誤差50%的意思是 真實母體的支持率跟33%有沒有可能差超過50% 有可能 例如111111111110 但這種母體存在的比例不到5% 接著問題來了 現在有一間星巳克 你要調查對消費者來說喜歡星巴克跟星巳克有沒有區別 所以你做了一樣的調查 結果呢你一樣抽三個 這次抽到111 喜歡比例是100% 接著你問根據這樣的實驗結果 有沒有可能出現一種母體 消費者對星巴克跟星巳克的喜歡是一樣的 答案是有 而且還蠻常見的 大約有9成的母體容許這種實驗結果 舉例來說 母體可能是 111000000001 111100000001 111110000001 ..... 如果你支持3% 你可能會覺得奇怪 支持率差距是66% 怎麼66%超過誤差50%還有這麼多可能的母體 但是但是 這些都是假設信心95%的情況下 95%只是常用的標準 你可以說 我想要誤差0.001%可不可以 當然可以 如果你的信心只有1% 誤差就會很小 換句話說 你做了一個測量 你只要求母體實際支持率跟你量到的差距在0.001%內 那你就只會撈到可能1%左右的母體 那用這個基礎進行討論你就可以說 你有不到1%的信心 消費者喜歡星巳克多於星巴克 當然這是極端的例子 也許你會有80%的信心可以下這種結論 但通常習慣是用95%90%之類的就是了 回過頭來講 要用error propagation通常的假設是你預期你做的測量背後有一個確定的真實值 你的平行世界就只有一個 不會有這種背後有不同母體不同情況的可能性 而因為誤差 你實際做測量的時候的測量值大約是常態分佈 至於喜好調查這種東西呢 當你只抽樣調查 你是不會知道背後母體真實長的樣子的 所以你只能討論眾多可能性中 在某種給定條件的各種可能性下的結果 我知道風向不對 但科學精神就是這樣 如果你說我錯 你要講出我哪裡錯 如果你提出一個說法 這個說法要有可以被證明是錯的可能性(不一定錯 但要有可證偽性) ※ 引述《Popechiou (是我)》之銘言: : https://i.imgur.com/XpDyyD8.jpg
Re: [問卦] 我不懂統計,有朋友送我這張圖有卦嗎?
: 剛剛在友版問問題,有朋友回應我這張圖,我看不懂,我只知道投降輸一半,不懂統計, : 這張圖好像很厲害,請問有卦嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.53.238.53 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1700343468.A.4B3.html

Re: 回文串

2388
> Re: [問卦] 我不懂統計,有朋友送我這張圖有卦嗎?
Gossiping11/19 05:37

88 則留言

※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 05:44:04

JC910, 1F
Re: [問卦] 我不懂統計,有朋友送我這張圖有卦嗎?

s9234032, 2F
一場 選舉 全民上統計課 這畫面好美111.82.61.247

doohan01, 3F
前提是兩組獨立數據27.53.232.143
沒有錯 如果數據不是獨立就要考慮相關性 第一種常態分佈的例子中誤差有可能修正 至於是變大還是變小要看兩者是正相關還是負相關 回到統計的例子 基本上你是星巴克星巳克分開問的 所以你得到的兩個對於母體推論基本上是獨立的

ShockHo222, 4F
台灣人真可憐,一會兒要懂疫苗,一會27.247.94.35

ShockHo222, 5F
兒要懂統計27.247.94.35

ok66, 6F
你假設錯了啊 柯侯跟侯柯就有相關性 而且是133.237.7.71

ewing, 7F
如有天命 需要讓票?223.139.188.244

ok66, 8F
正的 所以會比你估的小133.237.7.71
我沒有在討論那個例子 你可以說這個假設下的論述不適用某個例子 而不是你假設錯了 再回來相關性這件事 首先你要放相關性進來考慮的就是第一個例子 假設有一個上帝知道的真實數值而不是有各種可能的母體 那確實正相關會使誤差傳遞比原本的誤差傳遞小 但問題來了 請問你如何知道cov(A,B)是多少呢?

ok66, 9F
看民調有沒有計算這項啊 我怎知==133.237.7.71
民調當然沒有這項 因為通常計算covariance的時候是第一種例子 你在做實驗量測 量測一個數值 而不是做民調 調查支持比例 事情是這樣的 https://imgur.com/4zQ7Ztp 這是covariance 如果假設支持算1不支持算0 讓x_i要嘛1要嘛0 可能可以算至於能不能用我持保留態度 畢竟第一種常態分佈的狀況假設的是常態分佈 但0跟1顯然不是常態分佈 總之退一萬步我們用0跟1做個估計好了 但只是估計所以實際計算結果也許跟估計不一樣 總之 甚麼時候會得到最高的負相關呢 就是同一個人喜歡星巴克就不喜歡星巳克 甚麼時候會得到最高的正相關呢 就是同一個人喜歡星巴克就喜歡星巳克 的確正相關會讓誤差變小 但是呢 我們要看的就是有沒有統計顯著可以證明喜歡星巴克的人多於星巳克的人 高度正相關基本上是否定這個看法 因為高度正相關代表的是多數人兩個都一樣喜歡

sofaly, 10F
請問什麼是越位112.78.84.56

brian900530, 11F
正解就是沒有raw data都算不出來啦1.161.213.250

brian900530, 12F
沒有原始數據要怎麼知道共變異數XD1.161.213.250

brian900530, 13F
DD1.161.213.250

wen17, 14F
9成的母體 你是假設各種母體機率均等吧31.205.109.42
概念是這樣的 首先我們知道做了測量之後各種母體存在的機率就不均等了 舉例來說你測到111 母體就不可能是00000 所以一般來說我們看的是把9成5的母體挑出來 看能不能排除某種情況 換句話說 能不能挑9成6的母體出來 且這些母體實際支持率跟測量的小於3%呢? 答案是不能 一旦你做了1000份問卷 這種可能性就被排除了 至於挑出來的9成5的母體裡面各種比例是多高? 這跟誤差範圍內是兩件事 因為9成5的母體裡各種母體支持率分布的比例跟10成母體差不多 但10成母體統計誤差是100% 所以有兩個不同的問題 1.我能不能猜哪個母體最有可能 答案是可以 而且你八成會猜是你量到的那個 可是這時候你猜錯母體的機率也很高 2.我可不可以降低猜錯母體的機率 並在這個基礎上排除某事件發生的機會 可以 這就是統計誤差

wen17, 15F
也就是0 1都50% 這樣能maximize interval31.205.109.42

wen17, 16F
我不是很確定同時比兩組數據這樣公平嗎31.205.109.42

wen17, 17F
而且實際上因為有賴 所以其實不論柯或侯31.205.109.42

wen17, 18F
母體比率應該都<<0.5 直接用0.5估31.205.109.42

wen17, 19F
然後要求interval不能疊 怪怪der31.205.109.42

wen17, 20F
這例子不太像星巴克 but anyway31.205.109.42

wen17, 21F
為什麼智商157還有統計學博士簽的約31.205.109.42

wen17, 22F
可以不清不楚 定義都沒定義好31.205.109.42

pc011630, 23F
學生時代的惡魔又回來了114.33.5.252

tn368, 24F
我知道的是重點在如果你要比較兩組有差異118.167.227.249

tn368, 25F
的數據是不是有顯著差異你會設定一個P值,118.167.227.249

tn368, 26F
就是當你的假說是真的時候,你的結果出現118.167.227.249

tn368, 27F
極端情形的機率(例如常態分佈單雙尾的5% 9118.167.227.249

tn368, 28F
5%,P value=0.05), 你去計算你要比較數據118.167.227.249

tn368, 29F
的p value是不是低於設定值你才會知道是不118.167.227.249

tn368, 30F
是有統計上有顯著差距的意義118.167.227.249
你說的沒錯 這就是第一種常態分佈的狀況 如果你在測量一個數值的時候 例如全班體重 我們會假設體重分布是常態分佈 再根據常態分佈各數值出現的機率去設定p value的閥值 至於問卷這種問題呢 基本上就是1跟0 畫成圖就是兩條bar 基本上不是常態分佈 並且處理的問題也不一樣 常態分佈是假設宇宙有個真實的值和真實的分布 這個分布就是常態分佈 所以他不用處裡母體的問題 也就是為甚麼你假設常態分佈之後就不用假設95%信心水準了 (這跟P value的5%是不太一樣的概念) 因為你的"母體"就只會是常態分佈 至於問卷呢 我們要做的事情是在95%的母體中 討論某事件發生的機會有沒有可能完全被排除

wen17, 31F
不是 我是指 假設母體有10個 你測2個31.205.109.42

wen17, 32F
排除掉不可能發生的 剩下的用2選1 0/1去湊31.205.109.42

wen17, 33F
猜0.5的好處是能CI啊XD 你單純要檢定一個31.205.109.42

wen17, 34F
我覺得max CI很合理 CI最大都能跑出去31.205.109.42

wen17, 35F
肯定能跑出去了 但如果想玩兩個CI不重疊31.205.109.42

wen17, 36F
我不知道這樣做合不合適就是了31.205.109.42

wen17, 37F
不過我覺得你的排除在今天的例子不太重要?31.205.109.42

wen17, 38F
因為選民人數遠遠比民調樣本多31.205.109.42
母體=全體選民 民調=樣本 在沒選舉之前我們做民調得到得結果呢 可以有N種對應的母體 換句話說有N種可能的選民結構 可以讓我們做出今天的民調 但是呢 我能不能猜真的選舉的時候支持率會怎樣呢 可以 你會用你做的民調結果估計 但是呢 因為你的樣本數遠小於母體 所以真實的選舉結果跟你的民調結果大概不會一樣 差距有多大呢? 你做1000份民調 真實結果跟民調結果差距在3%以內的 有95%的可能性 差距在2%以內的 有80%的可能性 有沒有沒有誤差的 有可能性很接近0 OK 讓我們再回到相關性跟常態分佈的討論 你如果問說 今天做了一個民調 我能不能用常態分佈那一套來處理 我只能說我持保留態度 但我可以告訴你為甚麼平常做問卷調查都不是用常態分佈那一套 1.0跟1不是常態分佈 所以假設只可能是一種近似 2.常態分佈是對母體的一種假設 當你要排除某種可能性的時候 基本上是盡可能做越少假設越好 畢竟沒有人有好的理由說服別人 為甚麼真實母體應該是常態分佈 有甚麼東西不是常態分佈? 很簡單年紀分布就不是常態分佈 為甚麼我是持保留態不而不是否定 是因為統計這個東西基本上還是共識決 你說你要95%信心 我可不可以說要30%就好了 可以啊 你也可以說1%信心那你誤差就不見了 或者說要99.99%信心 那你誤差可能就大到快100% 95%這個共識基本上是因為好用 但甚麼是好用 怎樣定義好用? 這都是人決定的 所以你要用常態分佈行不行 也許吧 如果你覺得很好用的話 我只能說 一般社會科學處理好不好要不要這種"民調"應該沒有人假設常態分佈 我想再補充一點 雖然這裡應該沒有人會看 為甚麼常態分佈這麼棒呢? 這是因為大部分時候我們定義"距離"的時候都是用L2 norm 舉例來說 X = {x1,x2,...} Y = {y1,y2,...} 如果XY間距離是sqrt((x1-y1)^2+(x2-y2)^2+...) 這就是L2n norm 基本上差距 誤差這種東西就是距離 如果我們是這樣定義距離的 那你要找到一個"正確"的分布 使得該分布跟所有可能分布的距離最小的話 那這個分布就是常態分佈 如果距離不再是L2 norm了 那這個分布就不會再是常態分佈

xru03, 39F
27.240.170.3

a032100, 88F
問題49.217.203.97

kujoukk, 89F
61.228.232.94

UOG7, 90F
上完之後每個人都值1.5個博士嗎59.120.142.39

audi1005, 91F
意思是母體未知時 誤差值可以隨人定義?36.228.138.40
誤差越小信心越低 如果你可以接受0%信心的話確實誤差要多大都可以 但你設定了信心水準 根據你的樣本數 誤差就是確定的
※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 09:45:36

Imotucc 作者的近期文章

[問卦] 青雉為甚麼要加入黑鬍子海賊團
當初青雉作為海軍大將 也貫徹他認可的正義 包括放走羅賓 讓奧哈拉的精神得以延續 頂上戰爭也沒有為了純粹維護海軍立場像赤犬一樣對魯夫出手 為了貫徹他眼中的正義 他甚至放棄了上將的位子 離開海軍 但最後卻加入了黑鬍子團 難道黑鬍子團是他眼中的正
[問卦] 孔孟70幾代有甚麼特別的?
孔子孟子後代好像很喜歡說自己祖先是孔孟 自己是第幾代 現在好像都到70幾代了 阿這是有甚麼特別的 70幾代不就代表你跟孔子的關係只有0.5的70次方 大概就是十的負21次方 地球也才幾十億人 隨便一個人跟孔孟的關係大該也跟這些子孫差不多 阿
[問卦] 為甚麼台灣的金融業搞不到世界級?
為甚麼世界的金融中心都在英美跟他的前殖民地 像華爾街 倫敦 香港 新加坡 其他地方除了上海大概算區域級的金融中心 好像都搞不太起來 是除了英美以外的文組都跟我一樣是智障嗎 在學的時候就考不贏李祖 畢業也賺不贏李祖 除了打嘴砲甚麼也不會 問甚
[問卦] 大谷結婚是不是因為發現一平背叛自己
大鼓結婚的時候是不是就知道水原一平背叛自己 拿自己的血汗錢去賭博了 所以為了報復一平 就去找個人結婚 要氣氣水原一平 不然大谷整天都在練球 哪有時間談戀愛 平常相處時間最長的也是一平 投入的感情一定也最深 但沒想到最愛的人卻背叛自己 有掛嗎
Re: [問卦] 台灣為什麼不引進中國新能源車?
你怎麼不去問那些兩岸一家親 兩岸同屬一中的滑坡仔 怎麼同屬一個中國台灣卻買不到學店五毛小粉紅天天吹捧的中國電動車 怎麼不問五毛學店小粉紅這麼愛國產品牌 怎麼不去買可悲扶不起裕隆電車 兩個字 可憐哪 ※ 引述《lulu1305174 (ㄌㄨˇ
[問卦] 為甚麼台灣只是一個省?
常常聽到有人說台灣只是一個省 只是精省不是不見 可是台北新北桃園台中台南高雄不是也在台灣嗎 阿他們就不在台灣省阿 六都人口佔全台人口近7成ㄟ 如果台灣只是一個省 那這7成的人怎麼辦 變空氣嗎 所以台灣真的只是一個省嗎 有掛嗎
[問卦] 為甚麼美國這麼好台灣人還一堆人不來
笑死 有美國夢的炫耀仔想要展現優越感 說批評美國卻還住在美國不回台灣就算了 一堆根本沒住過美國 可能只去過迪士尼玩兩天就覺得自己美國通的 也在那邊跟風說 美國確實比較好 住美國又說台灣比較好的都是打嘴砲台獨仔 那美國這麼好這些人幹嘛不來?
[問卦] 江直樹有缺點嗎
江直樹又高又帥功課又好 聰明有上進心又沒有脾氣 家境也不錯 又專情不會拈花惹草 江直樹到底有沒有缺點阿 有掛嗎
[問卦] 為甚麼台灣人意識形態這麼重
台灣有兩種人的意識形態超級重 偏偏這兩種人又占台灣人口接近90% 第一種是覺得自己不是中國人是台灣人 這種人意識形態重可以理解 畢竟就是被洗腦 還有一群人不知道哪根神經不對 竟然說中國是中華民國 為甚麼意識形態可以重到這個地步阿 就算你說1
更多 Imotucc 作者的文章...