※ 本文轉寄自 ptt.cc, 文章原始頁面
看板Gossiping
標題

Re: [爆卦] 中央研究院詞庫小組大型語言模型

留言41則留言,32人參與討論
推噓22 ( 23117 )
※ 引述《derekhsu (浪人47之華麗的天下無雙)》之銘言: : 對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 : 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 : 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, : 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 : 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。 : 第二個錯誤的認知是把所有的LLM都當成是同一個等級,好像只要A不如B那A就不行,是 : 垃圾。以這個案例來說,它是Llama-2-7b跟Atom-7b模型,前面的Llama-2模型是代表它 : 是META出的Llama模型第二代(可商用),而7b則是說它的參數是70億個,不要以為70億 : 個參數很多,70億參數以LLM來說只能說是非常小的,所以答出一切亂七八糟的答案非 : 常正常,在7b之上,還有13b跟70b的模型參數量。 : 7b的模型實務上如果沒有經過finetune然後針對小範圍的特定任務,基本上就是玩具而 : 已。 : 第三,就是對於台灣的能力有誤會,做AI大概分為三個要素,模型/資料/算力。在大語言 : 模型方面,台灣三個都弱,模型用開源的即便是台智雲,也是用開源模型。資料方面, : 繁體中文本來就在中文領域本來就是弱項(中文已經很弱了,繁體中文更弱),算力方面, : 台灣有算力從頭到尾訓練LLM的不是說沒有,但跟OpenAI, META都還是非常非常遙遠的距離 : ,所以能做作finetune就不錯了。 : 這是原生llama-2的試玩網址(記得把模型調到7b來比較) : https://www.llama2.ai/ : 好,回歸重點,中研院在網站上就已經說過了 : #### : 以商用開源模型Llama-2-7b以及Atom-7b為基礎,再補強繁體中文的處理能力 : #### : 好,剛剛我說了Llam2-2-7b,那Atom-7b我剛剛沒有提到,這是什麼東西? : Atom-7b就是https://github.com/FlagAlpha/Llama2-Chinese : 這個就是中國訓練出來的大語言模型,Atom-7b : 中研院從頭到尾都沒有隱藏這件事,它就是基於中國訓練的Atom-7b然後再用繁體中文去 : finetune出來的模型啊。 : 從頭到尾中研院就沒有隱藏這件事,完全不知道前面好像發現什麼新大陸一樣。 看到這篇真的龜懶趴火 語氣還真的他媽的大啊 敢嗆鄉民去上LLM課程啊 誰不知道LLM的正確率一定會有誤差? 現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套 且直接用opencc大量將簡體資料轉繁體資料! 這很嚴重啊 第一 你今天是私人公司就算了 大家笑一笑就好 但中研院是什麼等級?是直接隸屬總統府的政府機構! 結果你他媽的拿台灣人民納稅錢 騙台灣人經費 然後抄中國LLM交差 還語氣很大跟我們說 完全沒藏啊! 第二 這垃圾模型標榜「商用」 所以是很多個人、學校、企業會接觸到的 直接暴露這麼多中國資訊 你確定會沒問題? 政府成立數發部、強調資訊安全是在玩假的嗎? 第三 台灣沒算力、沒資料、沒模型 這大家都知道 大家也沒在急 一步一步踏實地做嘛! 但這種為了求大眾關注吸引投資騙取經費的偷吃步手法 才是被鄉民真正唾棄的原因 無關政治 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.77.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696829419.A.A35.html

41 則留言

engineer1, 1F
綠能你不能1.200.254.116

omfg5487, 2F
不嚴重吧 現實沒人在乎 民調50%59.124.203.227

fireghhan, 3F
說沒藏就感覺沒有錯的口氣真的讓人吞不114.36.129.233

fireghhan, 4F
下去114.36.129.233

Smallsh, 5F
114.26.142.138

chen31502, 6F
推 偷懶還敢大聲39.14.1.7

Heptagram, 7F
你說的合理101.12.20.152

leeyeah, 8F
有台灣價值就夠了 你是不是製造社會不安223.137.32.204

Fortran, 9F
正解223.136.41.82

s90002442, 10F
中研院很多研究沒什麼開創性223.137.21.164

bigpon, 11F
喔這麼氣喔108.32.37.217

q123212, 12F
補助名目的補助才是重點 名目只是次要 不39.12.73.41

q123212, 13F
要也沒差39.12.73.41

Yahweh, 14F
還有一個更好笑的號稱AI Lab每天分析ptt118.169.145.38

Yahweh, 15F
動不動就找到中共協力者118.169.145.38

kissmickey, 16F
樓上指的開創性很到位哦123.192.83.209

jacid, 17F
難怪中研院一堆放棄治療的舔共反戰老人...106.64.49.62

kissmickey, 18F
你第一就錯了123.192.83.209

kissmickey, 19F
現在一層層包出去 還真的是私人企業123.192.83.209

q888atPt, 20F
你問題 根本沒人在意說的像是天崩地裂122.121.72.90

mnxzq, 21F
建議改名中央翻譯院118.231.185.241

yannicklatte, 22F
不意外42.73.44.162

olaqe, 23F
中研院那麼綠 還甚麼舔共反戰笑死114.25.204.194

WantFxxk4X, 24F
外包給敵國就是賴臭蛋政府價值核心 紅1.200.107.124

WantFxxk4X, 25F
綠共一起強姦台灣人1.200.107.124

Refauth, 26F
不嚴重啦!反正台灣小孩就是喜愛學習支語118.169.50.188

yeangigi, 27F
==通篇政治結果最後一行寫無關政治?!=36.225.6.148

BIGETC, 28F
抄抄抄 騙稅金223.140.139.201

la8day, 29F
人民血稅27.53.170.245

MAKAI7492, 30F
推,有人半瓶水101.9.194.5

MAKAI7492, 31F
通篇在解釋,有人只看到政治101.9.194.5

dtdon1699, 32F
綠色就是抗中保台,其他就是同路人118.169.54.151

hirt0123, 33F
114.46.188.181

Beltran, 34F
很遺撼那個也批站超老ID了 可以護航出這114.46.168.215

Beltran, 35F
種瞎話就是114.46.168.215

DarenR, 36F
垃圾民進党110.28.65.165

philae1112, 37F
61.224.150.228

maize602, 38F
執政團隊換成別人一定被噴到翻起了42.75.164.25

ziso, 39F
.111.240.138.53

MyPetTankDie, 40F
你這樣也是同路人了,會被說看不起114.136.254.138

MyPetTankDie, 41F
我們AI產業(最廣義)114.136.254.138

gaymay5566 作者的近期文章

[問卦] 去美國設廠終究會失敗的 無法停止嗎?
大家都知道 美國員工的奴性根本無法跟亞洲員工比 大家也知道 去美國設廠終究會失敗的 所以 真的無法停止這必輸的這步棋嗎? 有卦嗎?
[問卦] 廢棄物處理是不是很賺啊?
聽聞 有朋友的老爸 在做廢棄物處理 已經買了三四間房了 然後常常請親戚辦桌 皮包裡總是一疊鈔票 靠邀 這是不是屌打台清交白領啊 或是GG/MTK工程師 有卦嗎?
[問卦] 台灣物價是不是越來越沒有地域之分?
除了房價有地域之分外 有沒有越來越覺得 北中南各地的物價都差不多貴 以為去中南部鄉下區吃東西比較便宜 結果好像也跟北部差不多貴 差不多又幹了幾次 用著差不多的姿勢 有卦嗎?--- Sent from MeowPtt on my Pixel
[問卦] 學建構式數學的那批人過得還好嗎?
建構式數學 1996年在台灣國小實施 2002年第一屆升上國中時 被判定數學計算能力「低落」 2003年教育部趕緊宣布不再以建構式數學為唯一數學教學 現在算一算這批人大概也30~34歲了 他們現在過得好嗎? 五子登科了嗎? 有卦嗎?
[問卦] 土木博士價值是不是很低?
魯叔鄰居 112土木博士畢業 但似乎都找不到教職 連講師也沒有 公務員、國營、業界 也都沒興趣 寧願跟著家人去菜市場賣東西 好歹土木也是工學院阿 又是112的 真的是今日土木 明日土城嗎? 有卦嗎?--- Sent from MeowPtt
更多 gaymay5566 作者的文章...