※ 本文轉寄自 ptt.cc, 文章原始頁面
Re: [問卦] 中研院自己做的大型語言模型怎麼了?
※ 引述《messi5566 (虹粉)》之銘言:
: 中研院最近發布了他們自己開發的LLM
: 說是在處理繁體中文的任務上表現優異
: 可是小妹看了一下跑出來的成果
: https://i.imgur.com/I1zNnIa.png
: https://i.imgur.com/BJIxJY6.png
: 請問繁體中文的任務內容是把簡體翻譯過來嗎
: 詳細資料在這裡
: https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat
阿肥外商碼農阿肥啦!
昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還
可以進去,但現在已經進不去了。
這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較
早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預
訓練或微調的數據源跟一些微調小細節而已。
然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟
作者說的訓練數據源來看細節藏在魔鬼裡。
首先,依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練,
理論上原生的meta llama 2的vocabulary size是32000,然後當前對岸開源的簡中llama
2 vocabulary size 是 55296,CKIP開源的那個看起來是65000。
理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的
,所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。
此外,這兩個數據集都是簡中數據集,中研院不知道哪個阿天以為只要opencc 簡轉繁就
可以訓練,完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做
評測,根本是拿明朝的劍斬清朝的官。
當前政府一堆研究單位早就落後中國不止一輪了,人家中國四五年前就砸哈工大幾億人民
幣再做簡中數據集了。
那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始,建立屬
於台灣自己的數據集,結果過了幾年中研院依然是畫大餅的單位,年初阿肥參加過幾個會
議聽到中研院再那邊高喊要要做自己的LLM,阿肥還以為中研院自己秘密建立了一套數據
中心,想必一定砸大錢,結果竟然是拿對岸的數據訓練,也不知道哪個天才研究員覺得只
要簡轉繁AI就會自己講台灣用語。
唉~
這邊註一下:
Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會
的Token,詞會儲存起來對應成ID,AI模型其實真正預測的是這個詞表的ID最後再轉換回
人類有辦法閱讀的中文或英文字。
C-Eval是中國清華北大釋出來的評測集,簡單理解就是AI輸出的文字跟人類的回答有多接
近,他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專
業領域知識。
以上
阿肥自己目前也在幫公司做繁中的語言模型,目前阿肥因為繁中數據有限所以
阿肥都是盡可能把模型縮限在小範圍超過分佈就拒絕回答,敢這樣做到那麼通用還不是拿
自己的
大量數據集來訓練,我感覺CKIP可能要有大地震了。
呵呵….
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.46.126 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696833266.A.EC8.html
Re: 回文串
152276
[問卦] 中研院自己做的大型語言模型怎麼了?
Gossiping10/09 02:28
49103
Re: [問卦] 中研院自己做的大型語言模型怎麼了?
Gossiping10/09 02:50
-168
Re: [問卦] 中研院自己做的大型語言模型怎麼了?
Gossiping10/09 11:05
45
Re: [問卦] 中研院自己做的大型語言模型怎麼了?
Gossiping10/09 13:23
-417
Re: [問卦] 中研院自己做的大型語言模型怎麼了?
Gossiping10/09 13:40
55110
> Re: [問卦] 中研院自己做的大型語言模型怎麼了?
Gossiping10/09 14:34
-13
Re: [問卦] 中研院自己做的大型語言模型怎麼了?
Gossiping10/09 15:20
110 則留言
sxy67230 作者的近期文章
[問卦] 認真文,台灣本來就抄襲王國不服來辦
餓死抬頭,阿肥外商碼農阿肥啦! 大家記得小時候不是都有那種遊戲超級大補帖嗎?裡面就一堆複製國外遊戲、軟體開發商 的創作。印象中小時候很多外國遊戲、軟體你買國外原版也沒有要你輸入驗證碼,搞到後 來台灣到處抄到印象中2000年後的遊戲開始要求連
Re: [問卦] 為啥黑熊學院被八卦板恨之入骨?
阿肥外商碼農阿肥啦! 我也來報一下梯,海軍689梯,菲律賓衝突的時候阿肥就在海上第一線艦艇上啦!比起黑 熊還有資格說話了,台灣海峽就是台灣自己最好的腹地屏障,海空都失守的情況下就不要 幻想戰事會多有優勢,剩下只是海線海陸填屍體撐多久失守的問
Re: [新聞] 不用再追垃圾車!環境部擴大試辦「定時定
阿肥外商碼農阿肥啦! 一堆人在扯說什麼現在改是定時定點,但是依阿肥的觀察啦!重點在於台灣人的尿性就是 很糟啊!像阿肥老家旁邊巷子因為是市場旁邊里長就默許放垃圾,那個地方每天雖然清潔 隊都清完但是地上都會有食物湯汁,久了都馬整條馬路是酸臭味。
[問卦] 大家母親節會帶老母吃哪裡啊?
餓死抬頭,阿肥外商碼農阿肥啦! 慘了!母親節忘記預約餐廳,剛剛打了好幾家餐廳全都滿了,母親節餐廳到處都是人忘記 預約的情況下要帶老母吃什麼才不會讓老母發飆啊? 排隊吃巷口乾麵、爭鮮、還是要帶老母吃石二鍋?還是要親手下廚呢?會不會太寒酸到時
Re: [問卦] 台灣做不出軍用無人機嗎?
※ 引述《FA88124 (超弩級☆肥宅)》之銘言: : 如題 : 剛剛看到新聞說要跟美國買自殺無人機 : 你說戰機要跟美國買就算了 : 台灣做晶片那麼厲害 : 連一台自殺無人機都搞不出來嗎? : 還是科技樹點在投石了? : 乾五八掛? 阿
[問卦] 起家雞到底哪裡好吃了?
餓死抬頭,阿肥外商碼農阿肥啦! 阿肥之前去韓國吃Outdark完全屌打重點是阿肥跟阿肥老婆兩人點一份加啤酒爽喝也才台 幣700不到吃到快撐死,台灣吃起家雞只有一點點又小份隨便都500起跳,論CP值Outdark 屌打。論雞肉鮮嫩Outdar
[問卦] 欸!喜歡NewJeans有錯嗎?
餓死抬頭,阿肥外商碼農阿肥啦! 剛剛中午吃飯遇到公司的女業務同事,然後就隨便跟阿肥尬聊,阿肥休息的時候一直有聽 歌的習慣,然後女業務就問阿肥都聽什麼歌。 阿肥就回她最近都在聽NewJeans的歌,結果對方馬上變臉好像看到什麼噁心變態一樣。喜
推
推
→
推
→
推
推
推
推
推
→
→
推
推
→
→
推
→
→
→
推
→
推
推
→
推
推
推
推
→
推
推
→
→
推
→
→
推
推
推
推
推
→
→
推
推
推