※ 本文轉寄自 ptt.cc, 文章原始頁面
Re: [爆卦] 中央研究院詞庫小組大型語言模型
※ 引述《xdbx (羊阿兵)》之銘言:
: ※ 引述《dean1990 (狄恩院長)》之銘言:
: : 本魯也很好奇問了一些問題,
: : 首先是比較基礎的:
: : https://i.imgur.com/zKhx1A2.jpg
: 現在上不去了 只截到這個
: https://imgur.com/a/evMNmWM
: 你現在問它台灣總統是誰 它會說蔡英文了
: 問它台灣是不是國家 也說會
: 問它簡單的問題都會覺得台灣來的
: 但是電腦不會說謊 轉個彎套它話
: 就會發現資料都是被竄改過了
: 它的根源就是個阿六仔
這個語言模型的最大資料來源都是源自於一個世界開放的語料資料庫
其中中文占的比例很少
中文當中繁體中文的資料更少
因此訓練起來 中文其實都不像樣
同時間訓練台灣的內容資料又更少之又少
可以看下圖
https://i.imgur.com/zSPlmC5.jpg
繁體中文只有 0.05% 簡體中文有16%
如果真的要避免繁體中文被消滅
應該要正確的選擇我們要在語言AI模型要貢獻那些資料跟模型
不然再幾年對話機器人都內建中國話
台灣就沒有什麼立場了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.86.9 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696827960.A.B32.html
Re: 回文串
230393
[爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 10:09
312
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 10:14
715
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 10:24
36
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 10:50
-678
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 12:40
66
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 12:42
617
> Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 13:05
2241
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 13:30
116
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 14:17
-17
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 15:41
212
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 20:07
2358
Re: [爆卦] 中央研究院詞庫小組大型語言模型
Gossiping10/09 20:20
17 則留言
primeman 作者的近期文章
Re: [問卦] 東海大學vs逢甲大學,那間好?
※ 引述《gn505250 (dwas356916)》之銘言: : 東海大學校地遼闊,人文氣息濃厚, : 逢甲大學熱鬧非凡,學生素質不錯, : 如果要認真的比較, : 哪一間是高中生的優先選擇呢? : 有沒有八卦? :--- : Sent
Re: [新聞] 台中捷運藍線獲核定 估10年完工通車
藍線爽到的就是東海大學 因為總共有三個站都在東海大學 第一個是B09 東海別墅站 第二個是 B10 東海大學站(榮總站) 第三個是 B11 澄清醫院站 因為B10跟B11原本的澄清跟榮總 腹地跟地下都不好施工以及不能施工 因此就把主要站體結
Re: [問卦] 日本為什麼不反美反而超愛美國?
※ 引述《Xaymaca (夏)》之銘言: : 我跟你說 : 因為日本戰後 有反省 : 理性 務實 科學 : 你想想 : 日本最大的錯誤 就是 : 開戰前 沒有認清 也沒有想到 : 要好好說服美國 一起合作 : 我再說一次 : 二戰時 美日
Re: [問卦] 民眾黨2028還有希望嗎
接下來這四年執政會很辛苦 所以現在的票會少40-50萬 因此民進黨下次的基本票數 在500萬票 國民黨下次的候選人會比現在好 所以會多四十萬票 因此國民黨下次也會得到五百萬票 至於民眾黨 柯主席 如果四年後還要選總統 單純用現在的方法 還是
→
推
→
→
→
推
→
→
推
→
推
→
→
推
→
→
推