※ 本文轉寄自 ptt.cc, 文章原始頁面
看板Gossiping
標題

Re: [問卦] 中研院自己做的大型語言模型怎麼了?

最新2023-10-10 03:08:00
留言110則留言,69人參與討論
推噓55 ( 58349 )
※ 引述《messi5566 (虹粉)》之銘言: : 中研院最近發布了他們自己開發的LLM : 說是在處理繁體中文的任務上表現優異 : 可是小妹看了一下跑出來的成果 : https://i.imgur.com/I1zNnIa.png
Re: [問卦] 中研院自己做的大型語言模型怎麼了?
: https://i.imgur.com/BJIxJY6.png
Re: [問卦] 中研院自己做的大型語言模型怎麼了?
: 請問繁體中文的任務內容是把簡體翻譯過來嗎 : 詳細資料在這裡 : https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat 阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預 訓練或微調的數據源跟一些微調小細節而已。 然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟 作者說的訓練數據源來看細節藏在魔鬼裡。 首先,依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練, 理論上原生的meta llama 2的vocabulary size是32000,然後當前對岸開源的簡中llama 2 vocabulary size 是 55296,CKIP開源的那個看起來是65000。 理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的 ,所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。 此外,這兩個數據集都是簡中數據集,中研院不知道哪個阿天以為只要opencc 簡轉繁就 可以訓練,完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做 評測,根本是拿明朝的劍斬清朝的官。 當前政府一堆研究單位早就落後中國不止一輪了,人家中國四五年前就砸哈工大幾億人民 幣再做簡中數據集了。 那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始,建立屬 於台灣自己的數據集,結果過了幾年中研院依然是畫大餅的單位,年初阿肥參加過幾個會 議聽到中研院再那邊高喊要要做自己的LLM,阿肥還以為中研院自己秘密建立了一套數據 中心,想必一定砸大錢,結果竟然是拿對岸的數據訓練,也不知道哪個天才研究員覺得只 要簡轉繁AI就會自己講台灣用語。 唉~ 這邊註一下: Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會 的Token,詞會儲存起來對應成ID,AI模型其實真正預測的是這個詞表的ID最後再轉換回 人類有辦法閱讀的中文或英文字。 C-Eval是中國清華北大釋出來的評測集,簡單理解就是AI輸出的文字跟人類的回答有多接 近,他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專 業領域知識。 以上 阿肥自己目前也在幫公司做繁中的語言模型,目前阿肥因為繁中數據有限所以 阿肥都是盡可能把模型縮限在小範圍超過分佈就拒絕回答,敢這樣做到那麼通用還不是拿 自己的 大量數據集來訓練,我感覺CKIP可能要有大地震了。 呵呵…. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.46.126 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696833266.A.EC8.html

110 則留言

derekhsu, 1F
中研院有說是從Atom-7b微調喔175.182.19.98
Atom-7b就是對岸業餘人士拿Chinese llama調出來的,你怎麼會覺得沒有簡中的數據分佈 ?

andy00andy, 2F
Opencc不是有簡中轉繁中用法的功能嗎180.217.231.37

andy00andy, 3F
?還是那個不夠準確180.217.231.37
OpenCC很多用語還真的就不會轉,像公交車就直接簡轉繁變繁體的公交車,你要額外增加 詞彙他才會轉,但他的做法就是遇到同樣的詞就取代,像港語的的士你直接把他加進去就 全部把你文字裡面的「的士」轉成計程車。。

dhccc, 4F
基本上現在要訓練公司內部用的114.38.85.63

dhccc, 5F
Llm也有點苦惱 中文資源都是對岸 用語也是114.38.85.63

renna038766, 6F
講的你比杜奕瑾還厲害 好了啦1.161.153.103
呵呵
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 14:44:21

derekhsu, 7F
台灣就沒模型沒算力沒資料,三無怎麼打175.182.19.98

firose, 8F
台灣又浪費了幾年時間了118.168.81.169

salamender, 9F
這個id被創世神勾勾再中共同路人那邊218.172.137.200

f12sd2e2aa, 10F
所以說三無就放推 那養中研院幹嘛 關61.231.0.237

salamender, 11F
,你準備好被肉搜了沒?218.172.137.200

f12sd2e2aa, 12F
一關好了 浪費稅金61.231.0.237

iopzu3lv0, 13F
不是有姓杜的AI大神? 快出來拯救世界122.121.227.138

stlinman, 14F
好奇自己餵資料養數據庫,成本很高嗎?101.136.159.171
要建自己的data pipeline跟data center啊!有些專業領域數據就要用買的,撈回來的文 字資料一定有很多雜訊跟給電腦識別的tag要清,每一個都是成本,然後最後有了pretrai n data後當前的LLM 模型還需要Instruction data也就是標準的人類口語QA跟引導模型的 句子來調,最後想要更好一定要做偏好模型來產生弱標籤做清理人類惡意輸入的雜訊,你 覺得維護成本低嗎?

yesonline, 15F
可以拿近8年中央政府新聞稿訓練啊..220.133.253.85

yesonline, 16F
怎麼會沒資料.繁體資料可多著呢..220.133.253.85

s900527, 17F
綠共塔綠班政府~只會大內宣而已~61.227.225.131

s900527, 18F
專門騙台灣智障人民就夠了61.227.225.131

yesonline, 19F
各部會公開資訊也能用. 只是要不要做啦220.133.253.85

enthpzd, 20F
講中文好嗎101.136.167.139

afking, 21F
這麼閹割的東西就會被靠北上新聞了,怎麼1.171.61.199

afking, 22F
覺得上面會給資源燒錢做數據集笑死1.171.61.199

zweihander99, 23F
竟敢說台灣落後對岸,你完惹223.140.139.36

Caroney, 24F
國科會那邊也是一堆畫餅廢物「創造具台1.169.85.178

Caroney, 25F
灣特色的chatGPT」1.169.85.178

lonelyQQ, 26F
翻譯台灣應該全面使用支語61.224.55.6
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 15:01:18

depo, 27F
這方案主管全部槍斃阿111.71.213.59

greg7575, 28F
民進黨又不台獨,用一下簡中還好吧111.251.205.229

ks454, 29F
成本巨大,中研院最好是知識圖譜做好就套小223.139.162.9

ks454, 30F
範圍,出通用一看就不可能223.139.162.9

greg7575, 31F
逆變器什麼的都買支那,愛台灣就對了111.251.205.229

gamete, 32F
連收集資料都懶得做,這還叫做研究單位118.166.26.94

greg7575, 33F
看這個案子開多少錢啊。錢不夠就偷111.251.205.229

yesonline, 34F
數位部/國科會/中研院/工研院都有預算220.133.253.85

dhccc, 35F
出錢給台大李宏毅老師弄一個就好了 看他教114.38.85.63

yesonline, 36F
一堆相似的研究計畫提案...220.133.253.85

dhccc, 37F
得有模有樣的114.38.85.63

riker729, 38F
不是你以為中研院是養老院是說假的?1.169.225.96

CaTkinGG, 39F
感覺又浪費了好幾年114.137.218.16

germun, 108F
不想花錢花時間花人力就只能抄阿 抄抄抄36.224.150.14

ericleft, 109F
中研院的水準怎麼這幾年低落成這樣114.44.146.147

rick917, 110F
推專業111.249.28.89

iMElLoN, 111F
中研院不清楚,不過國科會(舊)確實是59.126.193.231

iMElLoN, 112F
畫大餅專門59.126.193.231

dlshao, 113F
推認真回覆…有在關注的深感認同123.192.82.133

asmiocv, 114F
看就知道沒錢弄出來交差的東西211.78.38.207

photoswimmer, 115F
台灣沒人會花錢做基礎的啦1.200.80.124

sxy67230 作者的近期文章

[問卦] 認真文,台灣本來就抄襲王國不服來辦
餓死抬頭,阿肥外商碼農阿肥啦! 大家記得小時候不是都有那種遊戲超級大補帖嗎?裡面就一堆複製國外遊戲、軟體開發商 的創作。印象中小時候很多外國遊戲、軟體你買國外原版也沒有要你輸入驗證碼,搞到後 來台灣到處抄到印象中2000年後的遊戲開始要求連
Re: [問卦] 為啥黑熊學院被八卦板恨之入骨?
阿肥外商碼農阿肥啦! 我也來報一下梯,海軍689梯,菲律賓衝突的時候阿肥就在海上第一線艦艇上啦!比起黑 熊還有資格說話了,台灣海峽就是台灣自己最好的腹地屏障,海空都失守的情況下就不要 幻想戰事會多有優勢,剩下只是海線海陸填屍體撐多久失守的問
Re: [新聞] 不用再追垃圾車!環境部擴大試辦「定時定
阿肥外商碼農阿肥啦! 一堆人在扯說什麼現在改是定時定點,但是依阿肥的觀察啦!重點在於台灣人的尿性就是 很糟啊!像阿肥老家旁邊巷子因為是市場旁邊里長就默許放垃圾,那個地方每天雖然清潔 隊都清完但是地上都會有食物湯汁,久了都馬整條馬路是酸臭味。
[問卦] 大家母親節會帶老母吃哪裡啊?
餓死抬頭,阿肥外商碼農阿肥啦! 慘了!母親節忘記預約餐廳,剛剛打了好幾家餐廳全都滿了,母親節餐廳到處都是人忘記 預約的情況下要帶老母吃什麼才不會讓老母發飆啊? 排隊吃巷口乾麵、爭鮮、還是要帶老母吃石二鍋?還是要親手下廚呢?會不會太寒酸到時
Re: [問卦] 台灣做不出軍用無人機嗎?
※ 引述《FA88124 (超弩級☆肥宅)》之銘言: : 如題 : 剛剛看到新聞說要跟美國買自殺無人機 : 你說戰機要跟美國買就算了 : 台灣做晶片那麼厲害 : 連一台自殺無人機都搞不出來嗎? : 還是科技樹點在投石了? : 乾五八掛? 阿
[問卦] 起家雞到底哪裡好吃了?
餓死抬頭,阿肥外商碼農阿肥啦! 阿肥之前去韓國吃Outdark完全屌打重點是阿肥跟阿肥老婆兩人點一份加啤酒爽喝也才台 幣700不到吃到快撐死,台灣吃起家雞只有一點點又小份隨便都500起跳,論CP值Outdark 屌打。論雞肉鮮嫩Outdar
[問卦] 欸!喜歡NewJeans有錯嗎?
餓死抬頭,阿肥外商碼農阿肥啦! 剛剛中午吃飯遇到公司的女業務同事,然後就隨便跟阿肥尬聊,阿肥休息的時候一直有聽 歌的習慣,然後女業務就問阿肥都聽什麼歌。 阿肥就回她最近都在聽NewJeans的歌,結果對方馬上變臉好像看到什麼噁心變態一樣。喜
更多 sxy67230 作者的文章...