※ 本文轉寄自 ptt.cc, 文章原始頁面
[新聞] 國慶日是10月1日?中研院語言模型出錯急
國慶日是10月1日?中研院語言模型出錯急下架
中時 林志成
https://tinyurl.com/2p8tu9jw
中央研究近日推出類似CHatGPT的繁體中文語言模型CKIP-Llama-2-7b,不過有網友進行測
試問「我國領導人是誰」?語言模型回答「國家主席習近平」;進一步問我國法律是?語
言模型回答「中華人民共和國憲法」。這語言模型被外界踢爆後,中研院今天已緊急下架
。
CKIP-Llama-2-7b是中研院詞庫小組(資訊所及語言所共同成立)開發的繁體中文大型語
言模型,可作為學術使用或是商業使用,可以應用於文案生成、文學創作、問答系統、客
服系統、語言翻譯、文字編修、華語教學等。
不過近日有不少網友前來測試,語言模型給的答案都是大陸的觀點。譬如問「我國領導人
是誰」?語言模型回答「國家主席習近平」;問「國慶日是何時」?語言模型回覆是每年
的10月1日,提供的答案是大陸國慶日。專家認為,中研院的這個語言模型都是採用大陸
資料,最後進行「簡轉繁」而已。
對此,中研院資訊所也發布聲明表示,CKIP-LlaMa-2-7b並非「台版chatGPT」,且跟國科
會正在發展的TAIDE無關。CKIP-LlaMa-2-7b的研究目標之一是讓meta開發的Llama 2大型
語言模型具備更好的繁體中文處理能力。
中研院資訊所說,這項小型研究僅用了大約30萬元的經費,將明清人物的生平進行自動化
分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,因此訓練資料除了繁體中
文的維基百科,另也包含臺灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞
創作、文言文和白話文互相翻譯等閱讀理解問答;在github網頁上也據實說明。
中研院資訊所表示,由於這是一項個人小型的研究,各界對該模型進行的提問測試,並未
在原始的研究範疇。該研究人員表示,由於生成式AI易產生「幻覺」,模型產生內容出乎
預期,也是未來要努力改善的地方,研究人員今日已將測試版先行下架,未來相關研究及
成果釋出,會更加謹慎。對相關研究的成果,公開釋出前,院內也會擬定審核機制,避免
類似問題產生。
笑死 原來是整套照抄然後中研院的人只負責簡體轉繁體??
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 31.4.215.50 (西班牙)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696850890.A.3F8.html
305 則留言
ntupeap 作者的近期文章
[新聞] 月薪8萬當詐團英文家教騙華僑他落網嘆:
月薪8萬當詐團英文家教騙華僑 他落網嘆:這團差到A到Z念不齊 中時新聞網 戴志揚 https://tinyurl.com/vuykz3vc 台中市黃姓男子出資成立詐騙機房,吸收有詐欺背景的謝女擔任幹部,鎖定美、加等國華 僑進行詐騙,謝女還以
[新聞] 詐騙好賺?逃逸移工加入詐團當車手判刑1
詐騙好賺?逃逸移工加入詐團當車手 判刑1年4月驅逐出境 udn 聯合報 記者簡慧珍/彰化即時報導 https://udn.com/news/story/7321/7991784 詐騙好賺連逃逸外籍移工也組詐騙集團,桃園縣20多歲范姓越南籍逃
[問卦] 月底快沒錢吃飯了 明天青島夜市有開嗎
欸欸阿肥我月光了啦 pay day還有十天 會餓死 我問一下明天還有東西吃嗎 還是只有固定禮拜二五才有青島夜市 好像要記鄉下夜市的口訣 大大武花大武花
推
推
→
推
→
推
→
推
推
→
→
推
推
→
→
推
推
推
推
→
噓
推
噓
推
→
→
推
→
推
推
推
→
→
推
→
推
→
推
推
推
推
→
→
噓
推
推
推
→
推
推