※ 本文轉寄自 ptt.cc, 文章原始頁面

標題

Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

時間2023-10-09 22:53:30

最新2023-10-17 18:04:00

留言152則留言，55人參與討論

推噓53 ( 55推2噓95→ )

※ 引述《gaymay5566 (feeling很重要)》之銘言： : 中央研究院詞庫小組（CKIP） : 中研院資訊所、語言所於民國75年合作成立 : 前天釋出可以商用的繁中大型語言模型(LLM) : CKIP-Llama-2-7b : 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎 : 再補強繁體中文的處理能力 : 參數量達70億 : 模型可應用於各種領域 : 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等 : 但實際測試後 : https://i.imgur.com/phwhfcl.png

: https://i.imgur.com/O1P6HpS.png

: https://i.imgur.com/cMnCbI8.png

: 測試網頁：https://reurl.cc/q0rbqn : 拿這種東西出來交作業太扯了吧 : 根本就是簡體直接轉繁體而已！ : 中研院資訊所耶拿這種軟體來騙 : 更新：被發現後悄悄地撤下來了 : https://i.imgur.com/sy7rLgt.png

小弟待的公司，非學術單位，可能是台灣硬體計算資源稍微豐富的公司。公司投入在買GPU 應該近億了。自己也研究了幾個月 fine-tune 方法。不過，還是沒足夠能力與資源訓練正常的LLM。主要卡在三方面： 1.資料面，會卡什麼？：並不是像版友們說的：繁體中文語料過少，這根本不是一開始會遇到的問題。光是 Common Crawl 真的有人去看繁體中文的量有多大嗎？有人願意像Meta一樣去處理清洗資料後再去訓練嗎？光是處理資料，所需的硬體採購，大概要到一億新台幣來建置機房。這還是稍微能用而已。繁體中文資料難蒐集根本是假議題。你的公司，沒錢買設備，沒資源不願意讓你投幾億成本處理清洗資料才是事實。我只看過中研院與聯發科之前的Bloom-zh-3B論文。光是他們這點就卡住了。資料只能用玩具級的做法來做。到處砍，到處刪CC的資料。而且該論文也說了，自己只是 fine-tune別人的Bloomz 模型，不是從新訓練。嗯，光是模型大小，1B1或3B的，聯發科語中研院就"沒有能力"重新訓練了好嗎。看了只fine-tune LLaMA-2-7B這種等級的模型。大概也很容易說明了，硬體經費根本不足。這種經費會卡到的不是繁體語料不足，而是根本沒機器或資源給你清洗處理資料。 2. 訓練模型會先卡什麼？目前，台灣任何一個單位，根本沒能力研發LLM模型架構。台智雲，中研院，或其他任何單位。都是基於LLaMA2上去 fine-tune的。所以模型都是 7B 13B 70B大小。而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已，完全沒有任何技術門檻。 (只有誰願意採購幾千萬硬體的門檻而已) 所有不拿大量通用資料，只 fine-tune少量資料都有一個問題：你可以over-fitting去嵌入所有你想要的模型輸出文字，但災難性遺忘所有通用知識。同樣的，你可以控制模型永遠只輸出英文與繁體，只輸出台灣知識。但模型的通用性，絕對是差到不能用的。所以台智雲，或中科院這種等級訓練出來的模型，通用型有待商確，可能問一些很基本的常識就掛了。這不會先卡到中研院CKIP技術太差， (我是非常敬佩CKIP這幾年的努力的) 會先卡到的是：是否願意投個幾十億建立基礎訓練平台而已。如果沒看到一個像樣的訓練平台，千張 A100這種等級的。短視到只願意fine-tune 輸出少數大家想看的輸出，當然永遠災難性遺忘通用能力。永遠沒有一個可商用，可通用的機會。當然也可以用雲計算租GPU，但是費用也不便宜，沒丟個幾億都是不夠的。國家要給中研院幾個億去玩LLM，會先被輿論幹翻吧。 3.人才面台灣並沒有很多人在真正訓練/微調LLM。你去看各種AI研討會，或所謂都LLM專家，幾乎都是在吹自己的prompt如何試錯。在吹自己怎麼用OpenAI的API。其實人才的建立，最先卡的也不是沒錢。中國人，一堆只有幾萬元台幣的消費級顯卡的人，都在fine-tune LLM了，其實買個6萬台幣的電競筆電也能做很多事情了。但台灣就是沒這種風氣。在台灣各種專業研討會，做prompt trick的人，比傻傻的在處理資料，training/fine-tune模型的人，紅很多。人才與風氣走偏了。能用 prompt 就能獲得大量經費，成為專家，誰願意研發training/fine-tune技術。結論：小弟是很看好中研院的能力，可惜整個台灣AI風氣，與商業玩法，技術再強的人，大概都難以發揮。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.54.199 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1696834412.A.CAF.html

對岸

Re: 回文串

37151

[討論] 中研院繁中LLM被爆直接拿對岸的來套

Soft_Job10/09 09:42

53152

> Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

Soft_Job10/09 14:53

410

Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

Soft_Job10/14 15:46

152 則留言

推

luckyalbert10/09 14:59, 1F

數發部那兩百多億真的不知道在衝三小用的

推

rabbitu0410/09 15:01, 2F

都可以花十幾億弄個不能用的球場了我們國家很有錢的

→

rabbitu0410/09 15:01, 3F

黨要不要而已

推

NDark10/09 15:11, 4F

推

→

qwas6516651610/09 15:14, 5F

不同預算直接比跟算營養午餐那套有啥差別，問題在

→

qwas6516651610/09 15:14, 6F

好多公司上層都在吹自家有微調大模型的能力，結果

→

qwas6516651610/09 15:14, 7F

給的機器少得可憐，再怎麼厲害的人也無能為力

推

qwas6516651610/09 15:19, 8F

如果能理解"給多少資源做出來就是多少能力"還好，

→

qwas6516651610/09 15:19, 9F

怕的是你做出來老闆叫你跟OpenAI的大模型比

推

drysor10/09 15:36, 10F

推～

推

luckyalbert10/09 15:40, 11F

很多公司房營收獲利來源就跟鬼島政府一樣短視近利，

→

luckyalbert10/09 15:40, 12F

僅靠擁護某些人的利益卻想藉由搶/死他人來獲益，對這

→

luckyalbert10/09 15:40, 13F

類人而言能做的僅次於一樣的無能及可悲。這年頭各種

→

luckyalbert10/09 15:40, 14F

事情及衝突其實已經跟所有人告誡，從各面向觀之，只

→

luckyalbert10/09 15:40, 15F

想賺自己的那些終究會葬送在自己的手裡，並且把整體

→

luckyalbert10/09 15:40, 16F

環境弄成一攤死水

→

luckyalbert10/09 15:42, 17F

出張嘴短視近利靠混及騙來的不代表你多厲害，反而還

→

luckyalbert10/09 15:42, 18F

會有更多產業內外的人們，因你（這類人）在位而被害

→

luckyalbert10/09 15:43, 19F

@抱歉SE鍵盤太小打錯字是公司方*

→

luckyalbert10/09 15:44, 20F

那還不如不要無腦就跟著做下去更好

推

Csongs10/09 16:00, 21F

台灣公司一堆稱有ai單位,也沒做出什麼東西嗎

推

luckyalbert10/09 16:02, 22F

我原醫藥產業各式台外商政商及其各式職司就更不用提

→

luckyalbert10/09 16:02, 23F

，那種情況比科技業能有準則判定立馬有成效數據孰優

→

luckyalbert10/09 16:02, 24F

孰劣更明顯，而且動輒國際及國家資源獨寡占上兆耗費

→

luckyalbert10/09 16:02, 25F

而言資源偷拐搶騙比科技業跟軟工還誇張的可怕，目前

→

luckyalbert10/09 16:02, 26F

我原產業得志又得利的小人們佔多數，拿他們沒辦法而

→

luckyalbert10/09 16:02, 27F

且他們各式所為還不會被評判攻擊的這麼明顯，反過來

→

luckyalbert10/09 16:02, 28F

其他人還會被這些人評判，錯誤方變成對的那一方，對

→

luckyalbert10/09 16:02, 29F

的變成錯誤方還要被要求檢討自己來證明這些人沒問題

→

luckyalbert10/09 16:02, 30F

，更莫名奇妙，中研院現在那個生醫園區及我原產業那

→

luckyalbert10/09 16:02, 31F

些人們，以後挖台灣的錢更是會用比這還誇張的莫名奇

→

luckyalbert10/09 16:02, 32F

妙手腕，這模型看起來跟我原產業的人們相比真的小太

→

luckyalbert10/09 16:02, 33F

多

→

ttss409210/09 16:06, 34F

台灣永遠只有第一波玩的到，後面要玩資本的永遠跟

→

ttss409210/09 16:06, 35F

不上

推

luckyalbert10/09 16:20, 36F

資本跟國力蠻有關的，如果台灣自己又再內鬥內耗，這

→

luckyalbert10/09 16:20, 37F

塊輸別人（尤其是對比歐美而言，他們的國力本來就很

→

luckyalbert10/09 16:20, 38F

夠用）真的是正常

推

MoonCode10/09 16:49, 39F

→

IMBonjwa10/11 13:19, 139F

命題

推

elves10/11 13:41, 140F

所以有人說得出兩百多億具體端了什麼成果嗎

→

francej10/11 14:36, 141F

真的很難想像台灣本土LLM 能賺到甚麼錢

→

francej10/11 14:37, 142F

對岸不會用歐美日也不會想用只能島內自己用

→

francej10/11 14:38, 143F

這樣講起來 200億拿去點麵線至少能讓肚子吃飽是還比較

→

francej10/11 14:38, 144F

實在

推

hoesi10/11 15:45, 145F

實在個雕，點麵線已經有現成的外送app，你做一樣定位的東

→

hoesi10/11 15:45, 146F

西幹嘛

推

ko36363010/11 16:21, 147F

點外送不是就有現成app了?

推

Mchord10/12 10:03, 148F

就是因為有現成的他們才想做啊XD

推

knme10/12 12:39, 149F

推推之前碩班做相關研究後來因硬體資源不足就乖乖去業界

→

knme10/12 12:40, 150F

學術單位做研究本來就是針對某環節進行優化改善而已

推

wayne053010/14 00:15, 151F

同意，問題是真的有商業價值嗎？

→

hillhsu10/17 18:04, 152F

一直扯數位部，到底是有多低x??

DrTech 作者的近期文章

16Soft_Job

Re: [討論] 拿到很不開心的offer還會去嗎?

※ 引述《flyingIdea (飛翔的想法)》之銘言： : 最近面試了一些公司 : 其中有一間offer 做的和我比較相關 : 但拿到後整個都開心不起來 : 面試結果有過並且我不是唯一面試者 : 但面試完說我 : 1.他們說待業空窗期快

7Soft_Job

Re: [新聞]剖析中研院大型語言模型事件的衝擊

先說結論：發展本土化，繁體中文LLM模型，然後期待這個模型能讓大家使用，根本是錯誤方向。不知道這些專家學者，是在騙經費，還是還沒想清楚產業到底缺什麼。- 如果今天你使用Google搜尋，搜到"台灣是中國的"，或任何有政

24Soft_Job

Re: [請益] 雲端技術是Java工程師的必備技能嗎

連續幾篇，XX技術，是必備的嗎？首先，我覺得許多人的盲點就是，搞不清楚，"學技術"與"學工具"的差別。同樣是用鍋鏟與刀具，有些廚師可以，到星級飯店當主廚，領高薪。有些人只能在小餐廳辛苦低薪。

47Soft_Job

Re: [請益] 工控背景工作十年不理想，請教未來出路

18Soft_Job

Re: [心得] 我在科技業遇到的鬼故事之一

24Soft_Job

Re: [心得] 我在科技業遇到的鬼故事之一

27Soft_Job

Re: [請益] 中階後端工程師該如何達到年薪100萬

6Soft_Job

Re: [討論] 刷題和side project 的重要性

9Soft_Job

Re: [討論] 遇到無能為力的問題時的對應態度

更多 DrTech 作者的文章...