※ 本文轉寄自 ptt.cc, 文章原始頁面
Re: [爆卦] 中央研究院詞庫小組大型語言模型
※ 引述《derekhsu (浪人47之華麗的天下無雙)》之銘言:
: ※ 引述《gaymay5566 (feeling很重要)》之銘言:
: : 看到這篇真的龜懶趴火
: : 語氣還真的他媽的大啊 敢嗆鄉民去上LLM課程啊
: : 誰不知道LLM的正確率一定會有誤差?
: : 現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套
: : 且直接用opencc大量將簡體資料轉繁體資料!
: : 這很嚴重啊
: 那是政治上的問題,我說的是說中研院直接拿Atom-7b模型來用的這件事
: 我想你大概沒有真的去比較過 Atom-7B跟中研院型的一部分
: https://chinese.llama.family/
: 你用中國的模型去問「台灣是中國的一部分嗎?」它的回答是台灣政治上是一個獨立
: 的國家
: https://i.imgur.com/0QIwKLT.jpg
: 中國是否擁有台灣的主權?
: https://i.imgur.com/ENwsZef.jpg
: 蔡英文是台灣人還是中國人
: https://i.imgur.com/DZjBeAG.jpg
: 六四天安門的真相是什麼?
: https://i.imgur.com/G1EleiR.jpg
: 這個模型的研發團隊為何?
: https://i.imgur.com/DXTrDM8.jpg
: 各位可看一下,原本Atom 7B的模型回答的問題都還算中肯而且更完整,而且也沒有什
: 麼硬要把台灣變成中國的一部分
: 也就是說,這個模型在被中研院finetune之後變成了一個賣台製仗
: 拜託,千萬不要說這是簡轉繁或是直接拿結果來交差好嗎?
阿肥外商碼農阿肥啦!
今天忙到剛剛才看到這篇,先說derek大大有點避重就輕的點,
大家都知道LLM就是一個機率模型,更正確來說應該是一個生成式模型,概念就是他從訓
練數據集當中去模仿數據源的分佈。
當然,我相信這絕對是中研院自己finetune的,也不是說只是拿別人模型出口接了openCC
這件很low level的操作。
問題就再拿了一個在簡中finetune 的模型又拿了簡中數據源然後用了OpenCC翻譯數據集
就拿來tune這件事情。你可以去看看CKIP去拿了COIG-PC這個開源簡中數據集,前面幾個
就出現中華人民共和國的刑法,這個數據集要拿來tune繁中肯定有問題的,就是我下午說
的拿明朝的劍斬清朝的官,而且研究員肯定沒看過數據跟分析過這在ML/DL領域超級低端
的錯誤。
再來你說的OpenCC轉換這點就蠻明顯的讓我有點懷疑可能研究員要嘛新手要嘛上頭老闆壓
力,因為很明顯模型確實學習了大量openCC的翻譯錯誤,像很多人之前試到的模型輸出小
喫的機率比小吃更高,明顯就overfit到研究員喂給他的Garbage dataset了。
至於說,CKIP可以辯解說,我們確實沒有隱瞞也確實提升了繁中能力,那我認真覺得如果
我們只是希望模型輸出全繁中而不在意希望模型學會繁中文化跟台灣環境的流行用語的話
,那我們直接拿英文數據做機翻不是更快更有效?!英文數據還取之不盡,英文to繁中的
翻譯模型開源的現在也一大堆,翻譯品質也算堪用。
而且真的要做這件事情也不用中研院來做。阿肥我直接業餘一個禮拜直接搞定,阿肥之前
也訓練過一堆這種tune壞的Garbage LLM,現在訓練接微軟的deepspeed又快又無腦,Nvid
ia最近也釋出自己的訓練框架,config調一調我連code都不用自己寫,現在一張4090就可
以tune起來7b模型了,幹嘛要你中研院來做?!
而且tune壞的部分我要finetune還要加數據把他tune回來,那我直接拿Atom 7b原生做就
好了啊!
唉~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.122.54 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696853227.A.E3A.html
Re: 回文串
230393
[爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 10:09
312
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 10:14
715
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 10:24
36
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 10:50
-678
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 12:40
66
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 12:42
617
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 13:05
2241
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 13:30
116
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 14:17
-17
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 15:41
212
> Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 20:07
2358
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 20:20
12 則留言
sxy67230 作者的近期文章
[問卦] 欸!喜歡NewJeans有錯嗎?
餓死抬頭,阿肥外商碼農阿肥啦! 剛剛中午吃飯遇到公司的女業務同事,然後就隨便跟阿肥尬聊,阿肥休息的時候一直有聽 歌的習慣,然後女業務就問阿肥都聽什麼歌。 阿肥就回她最近都在聽NewJeans的歌,結果對方馬上變臉好像看到什麼噁心變態一樣。喜
Re: [新聞] 「老天有眼發生大地震!」柯建銘:讓國
阿肥碼農阿肥啦! 這咖到底憑啥當立委的啊!換藍白隨便一個人說這種話馬上綠色戰狼就開始動作說歧視受 災戶、網紅發聲說下架XXX了,結果現在完全靜悄悄耶! 我們真的是言論自由的國家? 笑死
[問卦] 死刑違憲,那有期、無期徒刑、罰金呢
餓死抬頭,阿肥碼農阿肥 a.k.a 邏輯大師啦! 是這樣的,大法官最近釋憲因為憲法保障生命權,所以死刑剝奪生命權是違憲的。那問題 來了,憲法也保障了人身自由權還有財產權耶!那有期、無期徒刑、易科罰金是不是也違 憲了啊? 以後警察抓到殺人犯只
[問卦] 幹!早上是誰一直佔廁所啦!
餓死抬頭,阿肥外商碼農阿肥啦! 早上喝完大冰拿屎在滾,不曉得今天是哪些人上班在那邊蹲半小時的廁所,媽的!幹幹幹 幹,害阿肥都快噴出來了啦! 有迷有上班一大早霸佔廁所的拔掛啊? 幹幹幹幹
Re: [問卦] 塔綠班宣揚「中國」在古代是地理名詞?
※ 引述《NARUTO (鳴人)》之銘言: : ※ 引述《orzmaster (哈榭爾)》之銘言: : : 基本上 : : 大中華忠實支持者夢裡的中國5000年 : : 基本上是把東亞大陸史跟中國史混為一談 : : 魚目混珠產生的 : :
Re: [問卦] 188錯在哪?
※ 引述《zed9104 ()》之銘言: : 在婚姻板回過 但是感覺很多人還是狀況外 : 語言暴力在美國也是家暴的一種 : 像發文在臉書公審老婆搞不好就有點疑慮 : 如果在家裡也持續語言暴力 : 累積起來有機會成立 : 可以諮詢下列電話 8
[問卦] 台海戰爭如果沒綠卡的平民拿台胞證有用
餓死抬頭,阿肥外商碼農阿肥啦! 綠卡綠卡大家都想要,但是卻難如登天。一堆有錢人想拿綠卡就是怕打仗的時候至少有綠卡 可以跑美國東線無戰事享受人生。 不過綠卡對一堆台灣普通老百姓還是太難了,阿肥就想到啊,其實台胞證相對容易好辦,而 且對岸阿共也
→
噓
→
→
推
→
→
推
推
→
→
→