※ 本文轉寄自 ptt.cc, 文章原始頁面

標題

Re: [爆卦] 中央研究院詞庫小組大型語言模型

時間2023-10-09 21:30:17

留言41則留言，32人參與討論

推噓22 ( 23推1噓17→ )

※ 引述《derekhsu (浪人47之華麗的天下無雙)》之銘言： : 對於LLM只有這一點認知程度的話，最好不要就這樣出來帶風向會比較好，不然先去 : 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM，不同LLM之間又有什麼差異。 : 第一個錯誤的認知是認為LLM就應該要提供正確的答案，事實上LLM是一個機率模型， : 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個，它不是資 : 料庫，所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。 : 第二個錯誤的認知是把所有的LLM都當成是同一個等級，好像只要A不如B那A就不行，是 : 垃圾。以這個案例來說，它是Llama-2-7b跟Atom-7b模型，前面的Llama-2模型是代表它 : 是META出的Llama模型第二代(可商用)，而7b則是說它的參數是70億個，不要以為70億 : 個參數很多，70億參數以LLM來說只能說是非常小的，所以答出一切亂七八糟的答案非 : 常正常，在7b之上，還有13b跟70b的模型參數量。 : 7b的模型實務上如果沒有經過finetune然後針對小範圍的特定任務，基本上就是玩具而 : 已。 : 第三，就是對於台灣的能力有誤會，做AI大概分為三個要素，模型/資料/算力。在大語言 : 模型方面，台灣三個都弱，模型用開源的即便是台智雲，也是用開源模型。資料方面， : 繁體中文本來就在中文領域本來就是弱項(中文已經很弱了，繁體中文更弱)，算力方面， : 台灣有算力從頭到尾訓練LLM的不是說沒有，但跟OpenAI, META都還是非常非常遙遠的距離 : ，所以能做作finetune就不錯了。 : 這是原生llama-2的試玩網址(記得把模型調到7b來比較) : https://www.llama2.ai/ : 好，回歸重點，中研院在網站上就已經說過了 : #### : 以商用開源模型Llama-2-7b以及Atom-7b為基礎，再補強繁體中文的處理能力 : #### : 好，剛剛我說了Llam2-2-7b，那Atom-7b我剛剛沒有提到，這是什麼東西? : Atom-7b就是https://github.com/FlagAlpha/Llama2-Chinese : 這個就是中國訓練出來的大語言模型，Atom-7b : 中研院從頭到尾都沒有隱藏這件事，它就是基於中國訓練的Atom-7b然後再用繁體中文去 : finetune出來的模型啊。 : 從頭到尾中研院就沒有隱藏這件事，完全不知道前面好像發現什麼新大陸一樣。看到這篇真的龜懶趴火語氣還真的他媽的大啊敢嗆鄉民去上LLM課程啊誰不知道LLM的正確率一定會有誤差？現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套且直接用opencc大量將簡體資料轉繁體資料！這很嚴重啊第一你今天是私人公司就算了大家笑一笑就好但中研院是什麼等級？是直接隸屬總統府的政府機構！結果你他媽的拿台灣人民納稅錢騙台灣人經費然後抄中國LLM交差還語氣很大跟我們說完全沒藏啊！第二這垃圾模型標榜「商用」所以是很多個人、學校、企業會接觸到的直接暴露這麼多中國資訊你確定會沒問題？政府成立數發部、強調資訊安全是在玩假的嗎？第三台灣沒算力、沒資料、沒模型這大家都知道大家也沒在急一步一步踏實地做嘛！但這種為了求大眾關注吸引投資騙取經費的偷吃步手法才是被鄉民真正唾棄的原因無關政治 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.77.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696829419.A.A35.html

Re: 回文串

230393

[爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 10:09

312

Re: [爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 10:14

715

Re: [爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 10:24

Re: [爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 10:50

-678

Re: [爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 12:40

Re: [爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 12:42

617

Re: [爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 13:05

2241

> Re: [爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 13:30

116

Re: [爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 14:17

-17

Re: [爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 15:41

212

Re: [爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 20:07

2358

Re: [爆卦] 中央研究院詞庫小組大型語言模型

Gossiping10/09 20:20

41 則留言

→

engineer110/09 13:31, 1F

綠能你不能1.200.254.116

推

omfg548710/09 13:31, 2F

不嚴重吧現實沒人在乎民調50%59.124.203.227

推

fireghhan10/09 13:32, 3F

說沒藏就感覺沒有錯的口氣真的讓人吞不114.36.129.233

→

fireghhan10/09 13:32, 4F

下去114.36.129.233

推

Smallsh10/09 13:32, 5F

推114.26.142.138

推

chen3150210/09 13:34, 6F

推偷懶還敢大聲39.14.1.7

推

Heptagram10/09 13:34, 7F

你說的合理101.12.20.152

推

leeyeah10/09 13:34, 8F

有台灣價值就夠了你是不是製造社會不安223.137.32.204

推

Fortran10/09 13:35, 9F

正解223.136.41.82

→

s9000244210/09 13:36, 10F

中研院很多研究沒什麼開創性223.137.21.164

噓

bigpon10/09 13:36, 11F

喔這麼氣喔108.32.37.217

→

q12321210/09 13:38, 12F

補助名目的補助才是重點名目只是次要不39.12.73.41

→

q12321210/09 13:38, 13F

要也沒差39.12.73.41

推

Yahweh10/09 13:39, 14F

還有一個更好笑的號稱AI Lab每天分析ptt118.169.145.38

→

Yahweh10/09 13:39, 15F

動不動就找到中共協力者118.169.145.38

推

kissmickey10/09 13:40, 16F

樓上指的開創性很到位哦123.192.83.209

推

jacid10/09 13:43, 17F

難怪中研院一堆放棄治療的舔共反戰老人...106.64.49.62

→

kissmickey10/09 13:45, 18F

你第一就錯了123.192.83.209

→

kissmickey10/09 13:46, 19F

現在一層層包出去還真的是私人企業123.192.83.209

→

q888atPt10/09 13:47, 20F

你問題根本沒人在意說的像是天崩地裂122.121.72.90

推

mnxzq10/09 13:47, 21F

建議改名中央翻譯院118.231.185.241

推

yannicklatte10/09 13:56, 22F

不意外42.73.44.162

推

olaqe10/09 13:59, 23F

中研院那麼綠還甚麼舔共反戰笑死114.25.204.194

→

WantFxxk4X10/09 14:05, 24F

外包給敵國就是賴臭蛋政府價值核心紅1.200.107.124

→

WantFxxk4X10/09 14:05, 25F

綠共一起強姦台灣人1.200.107.124

推

Refauth10/09 14:16, 26F

不嚴重啦！反正台灣小孩就是喜愛學習支語118.169.50.188

推

yeangigi10/09 14:20, 27F

==通篇政治結果最後一行寫無關政治？！=36.225.6.148

→

BIGETC10/09 14:21, 28F

抄抄抄騙稅金223.140.139.201

→

la8day10/09 14:21, 29F

人民血稅27.53.170.245

推

MAKAI749210/09 14:33, 30F

推，有人半瓶水101.9.194.5

→

MAKAI749210/09 14:34, 31F

通篇在解釋，有人只看到政治101.9.194.5

推

dtdon169910/09 14:45, 32F

綠色就是抗中保台，其他就是同路人118.169.54.151

推

hirt012310/09 15:07, 33F

推114.46.188.181

推

Beltran10/09 15:09, 34F

很遺撼那個也批站超老ID了可以護航出這114.46.168.215

→

Beltran10/09 15:09, 35F

種瞎話就是114.46.168.215

→

DarenR10/09 15:46, 36F

垃圾民進党110.28.65.165

推

philae111210/09 16:24, 37F

推61.224.150.228

推

maize60210/09 16:45, 38F

執政團隊換成別人一定被噴到翻起了42.75.164.25

推

ziso10/09 17:48, 39F

.111.240.138.53

推

MyPetTankDie10/09 20:53, 40F

你這樣也是同路人了，會被說看不起114.136.254.138

→

MyPetTankDie10/09 20:53, 41F

我們AI產業(最廣義)114.136.254.138

gaymay5566 作者的近期文章

28Gossiping

[問卦] 新加坡有組屋，那台灣有什麼？

4Gossiping

[問卦] 去美國設廠終究會失敗的無法停止嗎？

大家都知道美國員工的奴性根本無法跟亞洲員工比大家也知道去美國設廠終究會失敗的所以真的無法停止這必輸的這步棋嗎？有卦嗎？

2Gossiping

[問卦] 公務員改成依能力調薪會更有效率嗎？

2Gossiping

[問卦] 廢棄物處理是不是很賺啊？

聽聞有朋友的老爸在做廢棄物處理已經買了三四間房了然後常常請親戚辦桌皮包裡總是一疊鈔票靠邀這是不是屌打台清交白領啊或是GG/MTK工程師有卦嗎？

[問卦] 台灣物價是不是越來越沒有地域之分？

除了房價有地域之分外有沒有越來越覺得北中南各地的物價都差不多貴以為去中南部鄉下區吃東西比較便宜結果好像也跟北部差不多貴差不多又幹了幾次用著差不多的姿勢有卦嗎？--- Sent from MeowPtt on my Pixel

6Gossiping

[問卦] 學建構式數學的那批人過得還好嗎？

建構式數學 1996年在台灣國小實施 2002年第一屆升上國中時被判定數學計算能力「低落」 2003年教育部趕緊宣布不再以建構式數學為唯一數學教學現在算一算這批人大概也30~34歲了他們現在過得好嗎？五子登科了嗎？有卦嗎？

33Gossiping

[問卦] 土木博士價值是不是很低？

魯叔鄰居 112土木博士畢業但似乎都找不到教職連講師也沒有公務員、國營、業界也都沒興趣寧願跟著家人去菜市場賣東西好歹土木也是工學院阿又是112的真的是今日土木明日土城嗎？有卦嗎？--- Sent from MeowPtt

14Gossiping

[問卦] 小Lin說如把美國換成中國會發生什麼事？

更多 gaymay5566 作者的文章...