※ 本文轉寄自 ptt.cc, 文章原始頁面
看板Soft_Job
標題

Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

最新2023-10-17 18:04:00
留言152則留言,55人參與討論
推噓53 ( 55295 )
※ 引述《gaymay5566 (feeling很重要)》之銘言: : 中央研究院詞庫小組(CKIP) : 中研院資訊所、語言所於民國75年合作成立 : 前天釋出可以商用的繁中大型語言模型(LLM) : CKIP-Llama-2-7b : 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎 : 再補強繁體中文的處理能力 : 參數量達70億 : 模型可應用於各種領域 : 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等 : 但實際測試後 : https://i.imgur.com/phwhfcl.png
Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套
: https://i.imgur.com/O1P6HpS.png
Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套
: https://i.imgur.com/cMnCbI8.png
Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套
: 測試網頁:https://reurl.cc/q0rbqn : 拿這種東西出來交作業 太扯了吧 : 根本就是簡體直接轉繁體而已! : 中研院資訊所耶 拿這種軟體來騙 : 更新:被發現後 悄悄地撤下來了 : https://i.imgur.com/sy7rLgt.png
Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套
小弟待的公司,非學術單位, 可能是台灣硬體計算資源稍微豐富的公司。 公司投入在買GPU 應該近億了。 自己也研究了幾個月 fine-tune 方法。 不過,還是沒足夠能力與資源訓練正常的LLM。 主要卡在三方面: 1.資料面,會卡什麼?: 並不是像版友們說的:繁體中文語料過少, 這根本不是一開始會遇到的問題。 光是 Common Crawl 真的有人去看繁體中文的量有多大嗎? 有人願意像Meta一樣去處理清洗資料後再去訓練嗎? 光是處理資料,所需的硬體採購, 大概要到一億新台幣來建置機房。 這還是稍微能用而已。 繁體中文資料難蒐集根本是假議題。 你的公司,沒錢買設備,沒資源 不願意讓你投幾億成本處理清洗資料才是事實。 我只看過中研院與聯發科之前的Bloom-zh-3B論文。光是他們這點就卡住了。 資料只能用玩具級的做法來做。 到處砍,到處刪CC的資料。 而且該論文也說了,自己只是 fine-tune別人的Bloomz 模型,不是從新訓練。 嗯,光是模型大小,1B1或3B的,聯發科語中研院就"沒有能力"重新訓練了好嗎。 看了 只fine-tune LLaMA-2-7B這種等級的模型。 大概也很容易說明了,硬體經費根本不足。 這種經費會卡到的不是繁體語料不足, 而是根本沒機器或資源給你清洗處理資料。 2. 訓練模型會先卡什麼? 目前,台灣任何一個單位,根本沒能力研發LLM模型架構。台智雲,中研院,或其他任何單位。 都是基於LLaMA2上去 fine-tune的。 所以模型都是 7B 13B 70B大小。 而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已, 完全沒有任何技術門檻。 (只有誰願意採購幾千萬硬體的門檻而已) 所有不拿大量通用資料,只 fine-tune少量資料 都有一個問題: 你可以over-fitting去嵌入所有你想要的模型輸出文字,但災難性遺忘所有通用知識。 同樣的,你可以控制模型永遠只輸出英文與繁體,只輸出台灣知識。但模型的通用性,絕對是差到不能用的。 所以台智雲,或中科院這種等級訓練出來的模型,通用型有待商確,可能問一些很基本的常識就掛了。 這不會先卡到中研院CKIP技術太差, (我是非常敬佩CKIP這幾年的努力的) 會先卡到的是: 是否願意投個幾十億建立基礎訓練平台而已。 如果沒看到一個像樣的訓練平台,千張 A100這種等級的。 短視到只願意fine-tune 輸出少數大家想看的輸出, 當然永遠災難性遺忘通用能力。 永遠沒有一個可商用,可通用的機會。 當然也可以用雲計算租GPU,但是費用也不便宜,沒丟個幾億都是不夠的。 國家要給中研院幾個億去玩LLM, 會先被輿論幹翻吧。 3.人才面 台灣並沒有很多人在真正訓練/微調LLM。 你去看各種AI研討會,或所謂都LLM專家,幾乎都是在吹自己的prompt如何試錯。 在吹自己怎麼用OpenAI的API。 其實人才的建立,最先卡的也不是沒錢。 中國人,一堆只有幾萬元台幣的消費級顯卡的人,都在fine-tune LLM了,其實買個6萬台幣的電競筆電也能做很多事情了。但台灣就是沒這種風氣。 在台灣各種專業研討會,做prompt trick的人,比傻傻的在處理資料,training/fine-tune模型的人,紅很多。人才與風氣走偏了。 能用 prompt 就能獲得大量經費,成為專家,誰願意研發training/fine-tune技術。 結論: 小弟是很看好中研院的能力,可惜整個台灣AI風氣,與商業玩法,技術再強的人,大概都難以發揮。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.54.199 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1696834412.A.CAF.html

Re: 回文串

53152
> Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套
Soft_Job10/09 14:53

152 則留言

luckyalbert, 1F
數發部那兩百多億真的不知道在衝三小用的

rabbitu04, 2F
都可以花十幾億弄個不能用的球場了 我們國家很有錢的

rabbitu04, 3F
黨要不要而已

NDark, 4F

qwas65166516, 5F
不同預算直接比跟算營養午餐那套有啥差別,問題在

qwas65166516, 6F
好多公司上層都在吹自家有微調大模型的能力,結果

qwas65166516, 7F
給的機器少得可憐,再怎麼厲害的人也無能為力

qwas65166516, 8F
如果能理解"給多少資源做出來就是多少能力"還好,

qwas65166516, 9F
怕的是你做出來老闆叫你跟OpenAI的大模型比

drysor, 10F
推~

luckyalbert, 11F
很多公司房營收獲利來源就跟鬼島政府一樣短視近利,

luckyalbert, 12F
僅靠擁護某些人的利益卻想藉由搶/死他人來獲益,對這

luckyalbert, 13F
類人而言能做的僅次於一樣的無能及可悲。這年頭各種

luckyalbert, 14F
事情及衝突其實已經跟所有人告誡,從各面向觀之,只

luckyalbert, 15F
想賺自己的那些終究會葬送在自己的手裡,並且把整體

luckyalbert, 16F
環境弄成一攤死水

luckyalbert, 17F
出張嘴短視近利靠混及騙來的不代表你多厲害,反而還

luckyalbert, 18F
會有更多產業內外的人們,因你(這類人)在位而被害

luckyalbert, 19F
@抱歉SE鍵盤太小打錯字是 公司方*

luckyalbert, 20F
那還不如不要無腦就跟著做下去更好

Csongs, 21F
台灣公司一堆稱有ai單位,也沒做出什麼東西嗎

luckyalbert, 22F
我原醫藥產業各式台外商政商及其各式職司就更不用提

luckyalbert, 23F
,那種情況比科技業能有準則判定立馬有成效數據孰優

luckyalbert, 24F
孰劣更明顯,而且動輒國際及國家資源獨寡占上兆耗費

luckyalbert, 25F
而言資源偷拐搶騙比科技業跟軟工還誇張的可怕,目前

luckyalbert, 26F
我原產業得志又得利的小人們佔多數,拿他們沒辦法而

luckyalbert, 27F
且他們各式所為還不會被評判攻擊的這麼明顯,反過來

luckyalbert, 28F
其他人還會被這些人評判,錯誤方變成對的那一方,對

luckyalbert, 29F
的變成錯誤方還要被要求檢討自己來證明這些人沒問題

luckyalbert, 30F
,更莫名奇妙,中研院現在那個生醫園區及我原產業那

luckyalbert, 31F
些人們,以後挖台灣的錢更是會用比這還誇張的莫名奇

luckyalbert, 32F
妙手腕,這模型看起來跟我原產業的人們相比真的小太

luckyalbert, 33F

ttss4092, 34F
台灣永遠只有第一波玩的到,後面要玩資本的永遠跟

ttss4092, 35F
不上

luckyalbert, 36F
資本跟國力蠻有關的,如果台灣自己又再內鬥內耗,這

luckyalbert, 37F
塊輸別人(尤其是對比歐美而言,他們的國力本來就很

luckyalbert, 38F
夠用)真的是正常

MoonCode, 39F

IMBonjwa, 139F
命題

elves, 140F
所以有人說得出兩百多億具體端了什麼成果嗎

francej, 141F
真的很難想像 台灣本土LLM 能賺到甚麼錢

francej, 142F
對岸不會用 歐美日也不會想用 只能島內自己用

francej, 143F
這樣講起來 200億拿去點麵線 至少能讓肚子吃飽 是還比較

francej, 144F
實在

hoesi, 145F
實在個雕,點麵線已經有現成的外送app,你做一樣定位的東

hoesi, 146F
西幹嘛

ko363630, 147F
點外送不是就有現成app了?

Mchord, 148F
就是因為有現成的他們才想做啊XD

knme, 149F
推推 之前碩班做相關研究 後來因硬體資源不足就乖乖去業界

knme, 150F
學術單位做研究本來就是針對某環節進行優化改善而已

wayne0530, 151F
同意,問題是真的有商業價值嗎?

hillhsu, 152F
一直扯數位部,到底是有多低x??

DrTech 作者的近期文章

Re: [討論] 拿到很不開心的offer還會去嗎?
※ 引述《flyingIdea (飛翔的想法)》之銘言: : 最近面試了一些公司 : 其中有一間offer 做的和我比較相關 : 但拿到後整個都開心不起來 : 面試結果有過 並且我不是唯一面試者 : 但面試完說我 : 1.他們說待業空窗期快
Re: [新聞]剖析中研院大型語言模型事件的衝擊
先說結論: 發展本土化,繁體中文LLM模型,然後期待這個模型能讓大家使用,根本是錯誤方向。不知道這些專家學者,是在騙經費,還是還沒想清楚產業到底缺什麼。- 如果今天你使用Google搜尋,搜到"台灣是中國的",或任何有政
Re: [請益] 雲端技術是Java工程師的必備技能嗎
連續幾篇,XX技術,是必備的嗎? 首先,我覺得許多人的盲點就是, 搞不清楚,"學技術"與"學工具"的差別。 同樣是用鍋鏟與刀具, 有些廚師可以,到星級飯店當主廚,領高薪。 有些人只能在小餐廳辛苦低薪。
更多 DrTech 作者的文章...