※ 本文轉寄自 ptt.cc, 文章原始頁面

標題

[新聞] 繁中資料量落後簡中不利台AI語言模型

時間2023-11-06 04:18:12

最新2023-11-07 22:14:00

留言160則留言，61人參與討論

推噓29 ( 40推11噓109→ )

https://ec.ltn.com.tw/article/paper/1613748

繁中資料量落後簡中 不利台AI語言模型

2023/11/05 05:30

https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/119.jpg
國科會推動台版生成式AI，結合產官學研開發「TAIDE」，耗時4個月推出初階成果，投入
70億個參數量，幫AI上繁體中文課，前在自動摘要、翻譯文本、寫信、寫文章等都有不錯
表現。（資料照，記者吳柏軒攝）

國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述

https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/120.jpg
國科會今年6月發表「可信任人工智慧對話引擎」（TAIDE）7B模型。國科會主委吳政忠（
左）表示，TAIDE是「打地基」，未來將提供公私部門加值應用，並守住台灣擁有的珍貴
繁體中文語料。（中央社資料照）

〔記者歐宇祥／台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣，時而引發
對台認知作戰的疑慮，且台灣發展生成式AI（人工智慧）等技術也須留意資料準確性、以
免生出不當答案。AI領域專家坦言，目前繁體中文資料量遠少於簡體中文，加上台灣網路
社群的知識性分享風氣相對不盛，對我國開發AI大型語言模型相當不利。

台算力、資料資源相對有限

ChatGPT帶動AI軍備競賽，我國政府是由國科會發展「可信任人工智慧對話引擎」（TAIDE
）計畫，產官學各自前進；不過發展AI燒錢，台灣算力、資料等資源都相對有限，研究單
位資金更緊缺，日前研究經費僅約三十萬的中研院AI語言模型，因出現中國觀點的回應，
引起軒然大波。

中研院資通安全專題中心執行長李育杰指出，生成式AI需要大量文本資料用做訓練、再運
用機器運算進行「接龍」、產出內容，受資料集影響大；而中研院爭議是源自於使用的
Llama 2模型，因含有中國資料集、易產生相應觀點答案，加上中企、研究單位大力投入
AI研發，都凸顯台灣需要自己的大型語言模型。

台灣人工智慧協會理事黃逸華分析，目前開發AI模型可將簡中資料轉換成繁中，或將簡中
資料剃除，但繁中資料量相對較少，可能使AI模型較容易出現幻覺（Hallucinations；即
無法作答的空白，可能以虛構來填補答案），或功能會較為侷限，且此問題是十數年積累
、短期難解，若使用PTT等平台資料，處理成本又高。

李育杰也認為，PTT、Dcard等台灣本土社群的用語生命週期短，加上資料雜亂可能蘊含謾
罵、火星文，品質不一定好，若要用在AI大型語言模型訓練需再經處理；即使都以繁中資
料訓練，AI仍可能生成不如預期的答案，以現行技術無法一○○％掌控規則與結果，只能
盡量隔絕不希望AI學習的資料與內容。

--
佛沒說小乘、大乘。上座部佛教馬哈希尊者《具戒經講記》拆穿假佛教大乘經典的騙局。
上座部佛教明昆《南傳菩薩道》是真釋迦牟尼佛的菩薩成佛之道  大乘是假菩薩成佛之道
妙法蓮華經 華嚴經 心經 金剛經 楞伽經  梵網經菩薩戒 圓覺經 楞嚴經 是 大乘假佛經
阿彌陀佛 藥師佛 是 大乘假佛  觀世音 文殊 普賢 維摩詰 龍樹 地藏王 是 大乘假菩薩
https://www.ptt.cc/bbs/soul/M.1523979060.A.68C.html
上座部佛教目犍連子帝須和那先破偽經大乘十方諸佛

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.230.165.15 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1699186695.A.5A6.html

AI

59[閒聊] AI學會說謊欺騙線上遊戲的人類玩家

43[新聞] 部分AI系統已學會欺騙人類科學家警告

28[問卦] 大企業都用AI跟機器人後人類要幹嘛？

26[新聞] 強化 iPhone 16 AI 功能，Apple 即將與 O

22[閒聊] 七宗罪精靈 (AI)

160 則留言

→

jupei11/05 20:50, 1F

還不都中文有差？

→

Skydier11/05 20:55, 2F

上次不是被抓包套皮中國的系統

推

physicsdk11/05 20:58, 3F

我不會說沒差，但既然簡中有優勢，就還是需要多參

→

physicsdk11/05 20:58, 4F

考求自己進步，不能為反而反

推

gino071711/05 21:03, 5F

除了政治話題外有什麼資料是繁中有簡中沒有的

推

a22222a421011/05 21:08, 6F

繁轉簡沒啥問題簡轉繁很多字會轉不過來

噓

yunf11/05 21:10, 7F

這原本就是一個政治操作原本就只有2000多萬人口的產

→

yunf11/05 21:10, 8F

出要怎麼會多過13億人口的產出你可以說這是一個與愛

→

yunf11/05 21:10, 9F

發展的困境也可以說他根本就不是一個問題這個問題會

→

yunf11/05 21:10, 10F

產生完全是因為你選擇使用這樣的方向發展而不是使用

→

yunf11/05 21:10, 11F

一個量少質精的方向發展會遇到這種問題根本就是遲早

→

yunf11/05 21:11, 12F

的事別把大家都當白癡耍

→

yunf11/05 21:12, 13F

聰明的鄉民應該要去追溯這則新聞到底是誰出的還有誰

→

yunf11/05 21:12, 14F

決策這些東西發展的方向自然就會水落石出！

→

kevinmeng211/05 21:35, 15F

自由時報…呵呵，不演了？

推

guf6015211/05 21:36, 16F

AI本身就大數據能贏我才覺得有鬼吧

→

kissmickey11/05 22:06, 17F

都抄的當然落後

推

ohohohya11/05 22:21, 18F

自己不累積啊先出錢翻譯國外文件

噓

TISH1231111/05 22:26, 19F

乾脆繁轉英還比較有用

推

j095832208011/05 22:33, 20F

中國連 stackoverflow 都翻成簡體了

噓

ccas11/05 22:46, 21F

等一下，中研院不是已經切割說是「個人研究」嗎？

→

ccas11/05 22:46, 22F

結果現在又開始出來說沾光？

推

BIOS11/05 22:53, 23F

簡中資源量一直都是屌打繁中....

噓

chunfo11/05 22:54, 24F

台灣是全世界最鄙視翻譯的地方

推

rogergon11/05 23:19, 25F

當然有差，簡中LLM弄出來的用詞就是對岸的。

→

DrizztMon11/05 23:33, 26F

不是簡中是屌打繁中，但這樣世界各地其他國家怎麼辦

→

DrizztMon11/05 23:33, 27F

又不是被屌打就做不出來

推

gn0121667411/05 23:41, 28F

理由伯

推

centra11/05 23:45, 29F

科技業不烙個英文單字就弱了

推

ciplu11/05 23:50, 30F

新聞現在都用水平了沒在用水準早就被統一

推

centra11/05 23:50, 31F

還不如花錢讓全國人民英語能力提升

→

ciplu11/05 23:51, 32F

連用詞都慢慢被同化直接用簡轉繁訓練算了

推

gn0121667411/05 23:56, 33F

上次還聽到新聞說「質量」....聽了搖頭

推

Lhmstu11/05 23:58, 34F

放棄吧，台灣不可能搞這個

推

Ron5132011/06 00:17, 35F

所以數位部還在搞麵線嗎？

噓

lovebridget11/06 00:17, 36F

哦要合理化直接爽抄中國又爽拿台灣經費了

推

lwamp11/06 00:19, 37F

就是找個藉口要錢啦，然後花了大錢又做一個垃圾出

→

lwamp11/06 00:19, 38F

來

→

lavign11/06 00:23, 39F

繁中資料集也只是ChatGPT的一點點而已

→

yunf11/07 10:55, 147F

表他文化水平！這就是西化的結果分工越來越細當你的

→

yunf11/07 10:55, 148F

工作是個輪子就永遠看不到方向盤在幹嘛只能照著命令

→

yunf11/07 10:55, 149F

做！

→

dbai2011/07 13:34, 150F

我說就是正體字和殘體字，正體字是寶藏，我們要珍惜

→

dbai2011/07 13:35, 151F

沒有什麼繁體簡體，就是正體和殘體啦

推

yudofu11/07 18:34, 152F

是不是跟能不能是兩回事，就算同樣繁體資料，如果

→

yudofu11/07 18:35, 153F

同樣繁體用戶加起來，可能香港也會覺得台灣資料太多

→

yudofu11/07 18:35, 154F

、簡中資料庫馬來華人也不一定同意訓練出來的結果

→

yudofu11/07 18:37, 155F

至於把簡體字當進步的可能是他們的腦容量有差到這幾

→

yudofu11/07 18:38, 156F

KB吧，對這些腦容量有限的也不適宜講太多爆他們腦。

→

yudofu11/07 18:39, 157F

否則整天抄襲拼音文字科技的應該趕快完成他們未完成

→

yudofu11/07 18:40, 158F

的中文拉丁化夢想吧。

噓

wesson11/07 21:33, 159F

連基本翻譯都不會了還要訓練其他參數?

推

ipojay11/07 22:14, 160F

人口基數就在那邊

hvariables 作者的近期文章

[新聞] 巴菲特示警 AI詐騙恐是史上最成長行業

19Tech_Job

[新聞] 施崇棠：華碩邁向全方位AI公司

7Tech_Job

[新聞] 歐盟期待台積電撐起晶片夢? 日媒潑冷水

13Tech_Job

[新聞] 黃崇仁：2025年將是半導體非常好的一年

10Tech_Job

[新聞] 美晶片陷缺工危機須靠外籍人才填補

13Tech_Job

[新聞] 世界先進留才擬發4.1萬張限制股

https://www.chinatimes.com/newspapers/20240430000189-260204?chdtv 世界先進留才擬發4.1萬張限制股 04:10 2024/04/30 工商時報張瑞益晶圓代工廠世界先進2

10Tech_Job

[新聞] 黃仁勳：人類不會因為AI而失業

5Tech_Job

[新聞] 蘋果放棄Micro LED 彭双浪不悲觀

更多 hvariables 作者的文章...

[新聞] 繁中資料量落後簡中 不利台AI語言模型

AI

160 則留言

hvariables 作者的近期文章

[新聞] 繁中資料量落後簡中不利台AI語言模型