※ 本文轉寄自 ptt.cc, 文章原始頁面
Re: [新聞] 國慶日變10/1!中研院認了「AI語言模型」
不知道這個話題有什麼好延燒的,一個數據庫而已。
在中文環境,台灣本就貢獻有限,要研究,就必不可少用到對岸資料,重要的是語言模型的
表現怎麼樣。
至少從實際來看,回答邏輯通順,條例分明,也能準確理解提問的意涵並給出準確的答案,
這不就夠了嗎?
大模型就是需要大數據,大數據是所有人一起貢獻的,而不是中研院能決定的。台灣人能貢
獻的數據有限,那就慢慢來,只要技術在,隨著數據集的擴大,自然會訓練出適合台灣的語
言大模型。
※ 引述 《armorblocks (package)》 之銘言:
:
:
: 中央研究院詞庫小組日前發布的繁體中文大型語言模型CKIP-LlaMa-2-7b,今(9)日遭踢
: 爆使用中國資料庫,詢問「國慶日是何時」會回答「10月1日」。中研院坦言,訓練資料
: 有來自中國開源的任務資料集(COIG),今日中午已將測試版先行下架。
:
: 網友發現詢問該語言模型「國慶日是何時?」,其會回答中國國慶日「10月1日」;詢問
: 「中華民國國歌為何?」,它會回答中華人民共和國的國歌「義勇軍進行曲」;詢問我國
: 憲法,則會回答「中華人民共和國憲法」。外界質疑中研院使用中國資料庫訓練,僅簡轉
: 繁後就公開。
:
: 中研院資訊所表示,CKIP-LlaMa-2-7b的研究目標之一是讓meta開發的Llama2大型語言模
: 型具備更好的繁體中文處理能力。這項小型研究僅用約30萬元的經費,將明清人物的生平
: 進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,因此訓練資料
: 除了繁體中文的維基百科,另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集
: COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答。
:
: 資訊所強調,這是一項個人小型研究,各界對該模型進行的提問測試,並未在原始研究範
: 疇。該研究人員表示,由於生成式AI易產生「幻覺」(hallucination),導致模型產生
: 內容出乎預期,未來將努力改善。目前已將測試版先行下架,未來相關研究及成果釋出,
: 會更加謹慎。
:
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.244.208.150 (香港)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696859949.A.BE7.html
Re: 回文串
143362
[新聞] 國慶日變10/1!中研院認了「AI語言模型」
Gossiping10/09 21:28
-317
> Re: [新聞] 國慶日變10/1!中研院認了「AI語言模型」
Gossiping10/09 21:59
610
Re: [新聞] 國慶日變10/1!中研院認了「AI語言模型」
Gossiping10/09 23:19
17 則留言
areses 作者的近期文章
Re: [問卦] 猶太人怎麼洗不動以色列形象
所以現在就能體現抖音的可怕,因為他能讓你看到想看的東西,從而控制世界輿論。 都在同情巴勒斯坦,巴勒斯坦的訴求是什麼,從河流到大海,那請問巴勒斯坦從河流到大海 了,難道以色列就活該一分為二嗎?就算拋開哈馬斯和恐怖襲擊,巴勒斯坦的訴求也是你死
Re: [問卦] 說「我是中國人」到底有何問題?
說台灣人是中國人,這就是揣著明白裝糊塗,玩文字遊戲罷了。 很多詞語,會隨著時間變化內涵的,支那曾經是中國的正式稱呼,但你現在敢面對面叫中國 人支那,中國人都要爆氣的巴你。而台灣人雖然曾經也是支那人,但現在如果提起支那,就 沒人會覺得包含台灣
Re: [問卦] 以民主為名的民粹要持續多久?
民粹和民主的不同之處在於,民粹不包容不同的聲音,但民主和民粹並不絕對對立,甚至可 以說,民主的前提就是民粹。 不包容其他聲音,如果往好的方面看,就是統一思想,而民主要想發展的好,前提就是基本 的思想統一。 比如要有相同的核心價值觀,最核心的
Re: [新聞] 3校學生會發聲明切割包圍立法院 趙少康
人民的民主權利不是隻有投票的那一天,這個基本的民主常識藍白還是要理解,儘管藍白已 經在民主社會熏陶近30年,卻連基本的民主思想都沒有,沒有一種悲哀。 投票的時候,人民信任你,所以委託你去立法院代表他們爭取利益,壯大國家。 但同時,民主權利還
→
→
推
→
→
→
噓
噓
推
推
噓
噓
→
噓
→
→
噓