※ 本文轉寄自 ptt.cc, 文章原始頁面
看板Tech_Job
標題

[新聞] 繁中資料量落後簡中 不利台AI語言模型

最新2023-11-07 22:14:00
留言160則留言,61人參與討論
推噓29 ( 4011109 )
https://ec.ltn.com.tw/article/paper/1613748 繁中資料量落後簡中 不利台AI語言模型 2023/11/05 05:30 https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/119.jpg 國科會推動台版生成式AI,結合產官學研開發「TAIDE」,耗時4個月推出初階成果,投入 70億個參數量,幫AI上繁體中文課,前在自動摘要、翻譯文本、寫信、寫文章等都有不錯 表現。(資料照,記者吳柏軒攝) 國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述 https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/120.jpg 國科會今年6月發表「可信任人工智慧對話引擎」(TAIDE)7B模型。國科會主委吳政忠( 左)表示,TAIDE是「打地基」,未來將提供公私部門加值應用,並守住台灣擁有的珍貴 繁體中文語料。(中央社資料照) 〔記者歐宇祥/台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣,時而引發 對台認知作戰的疑慮,且台灣發展生成式AI(人工智慧)等技術也須留意資料準確性、以 免生出不當答案。AI領域專家坦言,目前繁體中文資料量遠少於簡體中文,加上台灣網路 社群的知識性分享風氣相對不盛,對我國開發AI大型語言模型相當不利。 台算力、資料資源相對有限 ChatGPT帶動AI軍備競賽,我國政府是由國科會發展「可信任人工智慧對話引擎」(TAIDE )計畫,產官學各自前進;不過發展AI燒錢,台灣算力、資料等資源都相對有限,研究單 位資金更緊缺,日前研究經費僅約三十萬的中研院AI語言模型,因出現中國觀點的回應, 引起軒然大波。 中研院資通安全專題中心執行長李育杰指出,生成式AI需要大量文本資料用做訓練、再運 用機器運算進行「接龍」、產出內容,受資料集影響大;而中研院爭議是源自於使用的 Llama 2模型,因含有中國資料集、易產生相應觀點答案,加上中企、研究單位大力投入 AI研發,都凸顯台灣需要自己的大型語言模型。 台灣人工智慧協會理事黃逸華分析,目前開發AI模型可將簡中資料轉換成繁中,或將簡中 資料剃除,但繁中資料量相對較少,可能使AI模型較容易出現幻覺(Hallucinations;即 無法作答的空白,可能以虛構來填補答案),或功能會較為侷限,且此問題是十數年積累 、短期難解,若使用PTT等平台資料,處理成本又高。 李育杰也認為,PTT、Dcard等台灣本土社群的用語生命週期短,加上資料雜亂可能蘊含謾 罵、火星文,品質不一定好,若要用在AI大型語言模型訓練需再經處理;即使都以繁中資 料訓練,AI仍可能生成不如預期的答案,以現行技術無法一○○%掌控規則與結果,只能 盡量隔絕不希望AI學習的資料與內容。 -- 沒說小乘大乘上座部佛教馬哈希尊者《具戒經講記》拆穿佛教大乘經典的騙局 上座部佛教明昆《南傳菩薩道》真釋迦牟尼佛的菩薩成佛之道 大乘菩薩成佛之道 妙法蓮華經 華嚴經 心經 金剛經 楞伽經 梵網經菩薩戒 圓覺經 楞嚴經大乘假佛經 阿彌陀佛 藥師佛大乘假觀世音 文殊 普賢 維摩詰 龍樹 地藏王大乘假菩薩 https://www.ptt.cc/bbs/soul/M.1523979060.A.68C.html 上座部佛教目犍連子帝須那先偽經大乘十方諸佛 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.230.165.15 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1699186695.A.5A6.html

160 則留言

jupei, 1F
還不都中文 有差?

Skydier, 2F
上次不是被抓包套皮中國的系統

physicsdk, 3F
我不會說沒差,但既然簡中有優勢,就還是需要多參

physicsdk, 4F
考求自己進步,不能為反而反

gino0717, 5F
除了政治話題外有什麼資料是繁中有簡中沒有的

a22222a4210, 6F
繁轉簡沒啥問題 簡轉繁很多字會轉不過來

yunf, 7F
這原本就是一個政治操作原本就只有2000多萬人口的產

yunf, 8F
出要怎麼會多過13億人口的產出你可以說這是一個與愛

yunf, 9F
發展的困境也可以說他根本就不是一個問題這個問題會

yunf, 10F
產生完全是因為你選擇使用這樣的方向發展而不是使用

yunf, 11F
一個量少質精的方向發展會遇到這種問題根本就是遲早

yunf, 12F
的事別把大家都當白癡耍

yunf, 13F
聰明的鄉民應該要去追溯這則新聞到底是誰出的還有誰

yunf, 14F
決策這些東西發展的方向自然就會水落石出!

kevinmeng2, 15F
自由時報…呵呵,不演了?

guf60152, 16F
AI本身就大數據 能贏我才覺得有鬼吧

kissmickey, 17F
都抄的當然落後

ohohohya, 18F
自己不累積啊 先出錢翻譯國外文件

TISH12311, 19F
乾脆繁轉英還比較有用

j0958322080, 20F
中國連 stackoverflow 都翻成簡體了

ccas, 21F
等一下,中研院不是已經切割說是「個人研究」嗎?

ccas, 22F
結果現在又開始出來說沾光?

BIOS, 23F
簡中資源量一直都是屌打繁中....

chunfo, 24F
台灣是全世界最鄙視翻譯的地方

rogergon, 25F
當然有差,簡中LLM弄出來的用詞就是對岸的。

DrizztMon, 26F
不是簡中是屌打繁中,但這樣世界各地其他國家怎麼辦

DrizztMon, 27F
又不是被屌打就做不出來

gn01216674, 28F
理由伯

centra, 29F
科技業不烙個英文單字就弱了

ciplu, 30F
新聞現在都用水平了 沒在用水準 早就被統一

centra, 31F
還不如花錢讓全國人民英語能力提升

ciplu, 32F
連用詞都慢慢被同化 直接用簡轉繁訓練算了

gn01216674, 33F
上次還聽到新聞說「質量」....聽了搖頭

Lhmstu, 34F
放棄吧,台灣不可能搞這個

Ron51320, 35F
所以數位部還在搞麵線嗎?

lovebridget, 36F
哦 要合理化直接爽抄中國又爽拿台灣經費了

lwamp, 37F
就是找個藉口要錢啦,然後花了大錢又做一個垃圾出

lwamp, 38F

lavign, 39F
繁中資料集也只是ChatGPT的一點點而已

yunf, 147F
表他文化水平!這就是西化的結果分工越來越細當你的

yunf, 148F
工作是個輪子就永遠看不到方向盤在幹嘛只能照著命令

yunf, 149F
做!

dbai20, 150F
我說就是正體字和殘體字,正體字是寶藏,我們要珍惜

dbai20, 151F
沒有什麼繁體簡體,就是正體和殘體啦

yudofu, 152F
是不是跟能不能是兩回事,就算同樣繁體資料,如果

yudofu, 153F
同樣繁體用戶加起來,可能香港也會覺得台灣資料太多

yudofu, 154F
、簡中資料庫馬來華人也不一定同意訓練出來的結果

yudofu, 155F
至於把簡體字當進步的可能是他們的腦容量有差到這幾

yudofu, 156F
KB吧,對這些腦容量有限的也不適宜講太多爆他們腦。

yudofu, 157F
否則整天抄襲拼音文字科技的應該趕快完成他們未完成

yudofu, 158F
的中文拉丁化夢想吧。

wesson, 159F
連基本翻譯都不會了還要訓練其他參數?

ipojay, 160F
人口基數就在那邊