※ 本文轉寄自 ptt.cc, 文章原始頁面
看板Gossiping
標題

Re: [問卦] 中研院自己做的大型語言模型怎麼了?

最新2023-10-10 03:08:00
留言110則留言,69人參與討論
推噓55 ( 58349 )
※ 引述《messi5566 (虹粉)》之銘言: : 中研院最近發布了他們自己開發的LLM : 說是在處理繁體中文的任務上表現優異 : 可是小妹看了一下跑出來的成果 : https://i.imgur.com/I1zNnIa.png
Re: [問卦] 中研院自己做的大型語言模型怎麼了?
: https://i.imgur.com/BJIxJY6.png
Re: [問卦] 中研院自己做的大型語言模型怎麼了?
: 請問繁體中文的任務內容是把簡體翻譯過來嗎 : 詳細資料在這裡 : https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat 阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預 訓練或微調的數據源跟一些微調小細節而已。 然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟 作者說的訓練數據源來看細節藏在魔鬼裡。 首先,依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練, 理論上原生的meta llama 2的vocabulary size是32000,然後當前對岸開源的簡中llama 2 vocabulary size 是 55296,CKIP開源的那個看起來是65000。 理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的 ,所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。 此外,這兩個數據集都是簡中數據集,中研院不知道哪個阿天以為只要opencc 簡轉繁就 可以訓練,完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做 評測,根本是拿明朝的劍斬清朝的官。 當前政府一堆研究單位早就落後中國不止一輪了,人家中國四五年前就砸哈工大幾億人民 幣再做簡中數據集了。 那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始,建立屬 於台灣自己的數據集,結果過了幾年中研院依然是畫大餅的單位,年初阿肥參加過幾個會 議聽到中研院再那邊高喊要要做自己的LLM,阿肥還以為中研院自己秘密建立了一套數據 中心,想必一定砸大錢,結果竟然是拿對岸的數據訓練,也不知道哪個天才研究員覺得只 要簡轉繁AI就會自己講台灣用語。 唉~ 這邊註一下: Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會 的Token,詞會儲存起來對應成ID,AI模型其實真正預測的是這個詞表的ID最後再轉換回 人類有辦法閱讀的中文或英文字。 C-Eval是中國清華北大釋出來的評測集,簡單理解就是AI輸出的文字跟人類的回答有多接 近,他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專 業領域知識。 以上 阿肥自己目前也在幫公司做繁中的語言模型,目前阿肥因為繁中數據有限所以 阿肥都是盡可能把模型縮限在小範圍超過分佈就拒絕回答,敢這樣做到那麼通用還不是拿 自己的 大量數據集來訓練,我感覺CKIP可能要有大地震了。 呵呵…. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.46.126 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696833266.A.EC8.html

110 則留言

derekhsu, 1F
中研院有說是從Atom-7b微調喔175.182.19.98
Atom-7b就是對岸業餘人士拿Chinese llama調出來的,你怎麼會覺得沒有簡中的數據分佈 ?

andy00andy, 2F
Opencc不是有簡中轉繁中用法的功能嗎180.217.231.37

andy00andy, 3F
?還是那個不夠準確180.217.231.37
OpenCC很多用語還真的就不會轉,像公交車就直接簡轉繁變繁體的公交車,你要額外增加 詞彙他才會轉,但他的做法就是遇到同樣的詞就取代,像港語的的士你直接把他加進去就 全部把你文字裡面的「的士」轉成計程車。。

dhccc, 4F
基本上現在要訓練公司內部用的114.38.85.63

dhccc, 5F
Llm也有點苦惱 中文資源都是對岸 用語也是114.38.85.63

renna038766, 6F
講的你比杜奕瑾還厲害 好了啦1.161.153.103
呵呵
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 14:44:21

derekhsu, 7F
台灣就沒模型沒算力沒資料,三無怎麼打175.182.19.98

firose, 8F
台灣又浪費了幾年時間了118.168.81.169

salamender, 9F
這個id被創世神勾勾再中共同路人那邊218.172.137.200

f12sd2e2aa, 10F
所以說三無就放推 那養中研院幹嘛 關61.231.0.237

salamender, 11F
,你準備好被肉搜了沒?218.172.137.200

f12sd2e2aa, 12F
一關好了 浪費稅金61.231.0.237

iopzu3lv0, 13F
不是有姓杜的AI大神? 快出來拯救世界122.121.227.138

stlinman, 14F
好奇自己餵資料養數據庫,成本很高嗎?101.136.159.171
要建自己的data pipeline跟data center啊!有些專業領域數據就要用買的,撈回來的文 字資料一定有很多雜訊跟給電腦識別的tag要清,每一個都是成本,然後最後有了pretrai n data後當前的LLM 模型還需要Instruction data也就是標準的人類口語QA跟引導模型的 句子來調,最後想要更好一定要做偏好模型來產生弱標籤做清理人類惡意輸入的雜訊,你 覺得維護成本低嗎?

yesonline, 15F
可以拿近8年中央政府新聞稿訓練啊..220.133.253.85

yesonline, 16F
怎麼會沒資料.繁體資料可多著呢..220.133.253.85

s900527, 17F
綠共塔綠班政府~只會大內宣而已~61.227.225.131

s900527, 18F
專門騙台灣智障人民就夠了61.227.225.131

yesonline, 19F
各部會公開資訊也能用. 只是要不要做啦220.133.253.85

enthpzd, 20F
講中文好嗎101.136.167.139

afking, 21F
這麼閹割的東西就會被靠北上新聞了,怎麼1.171.61.199

afking, 22F
覺得上面會給資源燒錢做數據集笑死1.171.61.199

zweihander99, 23F
竟敢說台灣落後對岸,你完惹223.140.139.36

Caroney, 24F
國科會那邊也是一堆畫餅廢物「創造具台1.169.85.178

Caroney, 25F
灣特色的chatGPT」1.169.85.178

lonelyQQ, 26F
翻譯台灣應該全面使用支語61.224.55.6
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 15:01:18

depo, 27F
這方案主管全部槍斃阿111.71.213.59

greg7575, 28F
民進黨又不台獨,用一下簡中還好吧111.251.205.229

ks454, 29F
成本巨大,中研院最好是知識圖譜做好就套小223.139.162.9

ks454, 30F
範圍,出通用一看就不可能223.139.162.9

greg7575, 31F
逆變器什麼的都買支那,愛台灣就對了111.251.205.229

gamete, 32F
連收集資料都懶得做,這還叫做研究單位118.166.26.94

greg7575, 33F
看這個案子開多少錢啊。錢不夠就偷111.251.205.229

yesonline, 34F
數位部/國科會/中研院/工研院都有預算220.133.253.85

dhccc, 35F
出錢給台大李宏毅老師弄一個就好了 看他教114.38.85.63

yesonline, 36F
一堆相似的研究計畫提案...220.133.253.85

dhccc, 37F
得有模有樣的114.38.85.63

riker729, 38F
不是你以為中研院是養老院是說假的?1.169.225.96

CaTkinGG, 39F
感覺又浪費了好幾年114.137.218.16

germun, 108F
不想花錢花時間花人力就只能抄阿 抄抄抄36.224.150.14

ericleft, 109F
中研院的水準怎麼這幾年低落成這樣114.44.146.147

rick917, 110F
推專業111.249.28.89

iMElLoN, 111F
中研院不清楚,不過國科會(舊)確實是59.126.193.231

iMElLoN, 112F
畫大餅專門59.126.193.231

dlshao, 113F
推認真回覆…有在關注的深感認同123.192.82.133

asmiocv, 114F
看就知道沒錢弄出來交差的東西211.78.38.207

photoswimmer, 115F
台灣沒人會花錢做基礎的啦1.200.80.124

sxy67230 作者的近期文章

[問卦] 有大奶有錢媽媽各位會做出什麼脫序行為?
餓死抬頭,阿肥外商碼農阿肥啦! 是這樣的,我們的安佐覺得爸媽都有病想做出脫序的行為舒壓。那麼你各位啊!如果有一 個大奶、超正、有錢但非常寵兒的媽媽,你各位會做出什麼脫序的行為舒壓又不妨礙社會 呢? 我們來幫安佐哥集思廣益一下吧? 咁無八卦?
[問卦] 對岸小粉紅現在是不是瑟瑟發抖?
餓死抬頭,阿肥外商碼農阿肥啦! 我川今天說他當選要幫台灣轟炸北京,看了阿肥有夠興奮了,果然只有川普可以讓美國再 次偉大。對岸小粉紅跟習維尼看到川普了震撼性發言會不會瑟瑟發抖啊?萬一今年川贏了 會派幾輛黑科技武器轟炸北京呢?北京妹子們想逃難阿
[問卦] 哥布林親王有錢的秘密到底是什麼?
餓死抬頭,阿肥外商碼農阿肥啦! 最近想回鍋魔獸世界-浩劫與重生,發現部落竟然多了哥布林種族,而且領主貿易親王感 覺就超有錢的啦!可以接一堆部落工程標案接不完,明明感覺部落獸人就髒髒窮窮的,為 啥哥布林親王加入部落可以變那麼有錢啊? 究竟哥布
[問卦] 為啥台灣一堆明明都成年人智商卻像三歲?
餓死抬頭,阿肥外商碼農阿肥啦! 為啥明明檯面上一堆人物都半隻腳快踏進棺材了,稍微不合意就打算使用暴力想用搶的而 不是靠說服曉以大義跟利弊或是尊重多數人意見,智商堪比胖虎像三歲兒童得不到反主流 我就要用搶的,而不是靠意志力去遊說就算輸了也要有
[問卦] 認真文,台灣本來就抄襲王國不服來辦
餓死抬頭,阿肥外商碼農阿肥啦! 大家記得小時候不是都有那種遊戲超級大補帖嗎?裡面就一堆複製國外遊戲、軟體開發商 的創作。印象中小時候很多外國遊戲、軟體你買國外原版也沒有要你輸入驗證碼,搞到後 來台灣到處抄到印象中2000年後的遊戲開始要求連
更多 sxy67230 作者的文章...