※ 本文轉寄自 ptt.cc, 文章原始頁面

看板Gossiping

作者sxy67230 (charlesgg)

標題

Re: [問卦] 中研院自己做的大型語言模型怎麼了？

時間2023-10-09 22:34:24

最新2023-10-10 03:08:00

留言110則留言，69人參與討論

推噓55 ( 58推3噓49→ )

回文7則回文

※ 引述《messi5566 (虹粉)》之銘言： : 中研院最近發布了他們自己開發的LLM : 說是在處理繁體中文的任務上表現優異 : 可是小妹看了一下跑出來的成果 : https://i.imgur.com/I1zNnIa.png

: https://i.imgur.com/BJIxJY6.png

: 請問繁體中文的任務內容是把簡體翻譯過來嗎 : 詳細資料在這裡 : https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat 阿肥外商碼農阿肥啦！昨天晚上都在跟獵人直播來不及趕上大型翻車現場，這邊中午看hugging face hub還可以進去，但現在已經進不去了。這邊阿肥就直接說，基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較早期做的自己完全從零訓練的語言模型外，大家都是從meta 的llama魔改的，差別在於預訓練或微調的數據源跟一些微調小細節而已。然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟作者說的訓練數據源來看細節藏在魔鬼裡。首先，依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練，理論上原生的meta llama 2的vocabulary size是32000，然後當前對岸開源的簡中llama 2 vocabulary size 是 55296，CKIP開源的那個看起來是65000。理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的，所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。此外，這兩個數據集都是簡中數據集，中研院不知道哪個阿天以為只要opencc 簡轉繁就可以訓練，完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做評測，根本是拿明朝的劍斬清朝的官。當前政府一堆研究單位早就落後中國不止一輪了，人家中國四五年前就砸哈工大幾億人民幣再做簡中數據集了。那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始，建立屬於台灣自己的數據集，結果過了幾年中研院依然是畫大餅的單位，年初阿肥參加過幾個會議聽到中研院再那邊高喊要要做自己的LLM，阿肥還以為中研院自己秘密建立了一套數據中心，想必一定砸大錢，結果竟然是拿對岸的數據訓練，也不知道哪個天才研究員覺得只要簡轉繁AI就會自己講台灣用語。唉～這邊註一下： Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會的Token，詞會儲存起來對應成ID，AI模型其實真正預測的是這個詞表的ID最後再轉換回人類有辦法閱讀的中文或英文字。 C-Eval是中國清華北大釋出來的評測集，簡單理解就是AI輸出的文字跟人類的回答有多接近，他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專業領域知識。以上阿肥自己目前也在幫公司做繁中的語言模型，目前阿肥因為繁中數據有限所以阿肥都是盡可能把模型縮限在小範圍超過分佈就拒絕回答，敢這樣做到那麼通用還不是拿自己的大量數據集來訓練，我感覺CKIP可能要有大地震了。呵呵…. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.46.126 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696833266.A.EC8.html

Re: 回文串