※ 本文轉寄自 ptt.cc, 文章原始頁面

作者jackliao1990 (j)

標題

[新聞] OpenAI神秘gpt2正在A/B測試，奧特曼搶先

時間2024-05-08 21:11:21

最新2024-05-11 09:59:00

留言47則留言，12人參與討論

推噓3 ( 4推1噓42→ )

OpenAI神秘gpt2正在A/B測試，奧特曼搶先劇透，網友已玩嗨 https://www.qbitai.com/2024/05/140099.html 明敏 OpenAI正在秘密A/B測試下一代模型，實力超強被懷疑是GPT-4.5或GPT-5。就在奧特曼當謎語人暗示之後，兩款新模型悄悄上線大模型競技場。 https://tinyurl.com/57psz9bm 提示詞：畫一個自由女神像。和GPT-4-Turbo（左）同場競技，gpt2-chatbot（右）明顯更勝一籌。 https://tinyurl.com/yc84ndz3 先前一款名為gpt2-chatbot的超強模型僅僅上線一天，熱情的網友就把伺服器擠爆了，不得不下架，大家紛紛表示還沒玩過。這次重新上線後，模型在一次報錯中直接給出了跳轉OpenAI平台網站的連結。這下大家都嗨了，做實了是OpenAI在搞A/B測試？也有人表示，這倆模型可能已經在推理和計劃方面進行微調。現在在競技場裡隨機匹配，就能遇到這兩個新模型。這不，網友們已經紛紛前去測試，一探它們的底細了。程式碼能力突出和第一次露面有所不同，如今想要用上gpt2，只能在Arena(battle)裡碰運氣，Direct Chat中找不到它們的影子。有的人運氣好，試了5次就成功讓這倆模型battle了一局。 https://tinyurl.com/yc4tjwyy 結合幾個範例來看，im-also-a-good-gpt2-chatbot產生的答案似乎總是更簡潔一些。 https://tinyurl.com/7zfv4p6j 程式碼生成方面，它能一次產生一個可執行的遊戲程式碼。提示詞：Code Flappy Bird game in Python https://tinyurl.com/ywpc67wz 效果如下： https://tinyurl.com/3hspmth4 如果回答的代碼有誤，可以進一步追問讓它自己改正。例如讓它們寫一個康威生命遊戲的程式碼，在未告知使用Colab時，模型寫出的程式碼有問題。但繼續追問並表示自己用的是Colab，im-also-a-good-gpt2-chatbot能夠自己修改對程式碼，im-a-good-gpt2-chatbot不行。還有在解決物理題方面，有Reddit用戶說im-also-a-good-gpt2-chatbot能解答出其他模型都答不對的物理題。問題：綠燈俠從一棟高樓頂跳下，他從靜止狀態開始做自由落體運動到地面，在他下落過程的最後1秒時，距離地面的距離是大樓一半的高度，這座樓有多高？不過我們實測了下，im-a-good-gpt2-chatbot似乎也能做對。 https://tinyurl.com/ydbxm2ct 還有人測試了一道推理題目，im-a-good-gpt2-chatbot可回答正確， im-also-a-good-gpt2-chatbot也能做到但需要兩次提示。問題：現在有兩個足球隊。球隊A贏了8次，球隊B贏了5次，已知剩下7次比賽，球隊 B想要贏得整場比賽，還需要至少贏幾場？ https://tinyurl.com/ads7rtcf 網友：白嫖大家回饋嗎？儘管OpenAI還是沒有正式認領gpt2-chatbot，但網友幾乎已經默認它們是一家了。因此有人覺得，gpt2-chatbot在競技場上搞A/B測試，這不是讓大家免費給他當志工。 OpenAI想要對內部模型進行人工評估，應該付給測試人員報酬，而不是在免費社區做。有人覺得他們這麼做，就是為了炒熱度。但現在gpt2-chatbot的底層模型到底是啥還不確定。有人直接問了gpt2-chatbot，但可能有幻覺，它表示自己基於GPT-4架構，是GPT-4.5的變體。但之前奧特曼在公開演講中已經否定了。測試網友表示自己沒有給GPT-4.5相關的提示內容。 https://tinyurl.com/ws3dnjpv 也有人懷疑，這兩個模型大小不一樣，叫這個名字是不是因為採用了GPT-2的架構來訓練模型。這和單純的MoE不同，它們使用了Q*、合成數據，Sam的推特編輯歷史是不是暗示了這一點？值得一提的是，最近有大V爆料稱本週OpenAI將公佈進軍搜尋引擎的消息。 https://tinyurl.com/46b3tumr OpenAI已經更新了網站主頁，第一個輪番頁是一個搜尋框上面寫著“向ChatGPT問任何事情” https://tinyurl.com/pjxwf72m 爆料說這次發布的時間可能在北京時間週五的凌晨2點。總之，最近OpenAI的動向，都有點神秘。參考連結： [1]https://twitter.com/itsandrewgao/status/1787758687651811705 [2]https://twitter.com/DimitrisPapail/status/1787899811514982887 [3]https://twitter.com/AlphaSignalAI/status/1786025388902097077 [4]https://gizmodo.com/powerful-new-gpt2-chatbot-mysteriously-returns-1851460717 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.176.76 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1715173904.A.C88.html

AI

16[新聞] 楠梓電轉投資滬電首季獲利大幅年增 AI伺

14[新聞] 被質疑AI換臉外流！夏筠婷慘遭網暴　開戰酸民「你幾秒鐘能

12[AI] 這樣的光影會不自然嗎？

6[問卦] 沒人發現AI的出現我們已經離永生不遠嗎?

5[討論] 有人用AI算出519人數 “734人”

47 則留言

→

labell05/08 21:28, 1F

共匪國?

→

labell05/08 21:28, 2F

跟台灣沒關係

推

applejone05/08 21:53, 3F

我有測試到一次，是比其他模型強，可惜當天太多人

→

applejone05/08 21:53, 4F

測試了一直遇到限制

噓

velaro05/08 23:42, 5F

Artificial Stupidness

→

abc2108699905/09 00:30, 6F

2 > 4

推

qwe7897105/09 00:48, 7F

都很好奇製作團隊到後面真得理解自己怎麼做的嗎

推

previa05/09 01:15, 8F

我覺得畫這種都沒啥意義，能夠畫出一些概念抽象圖

→

previa05/09 01:16, 9F

比如UML Model 圖，或是時序圖，或是畫圖表達抽象

→

previa05/09 01:17, 10F

概念，好比系統Stack圖這種才有意義

→

previa05/09 01:17, 11F

不然現在看應用比較淺都是畫A圖、畫插畫、場景這種

→

previa05/09 01:18, 12F

不像是真正理解抽象概念後的圖。。

→

kaltu05/09 02:38, 13F

因為現在的生成式模型還只能在很淺的抽象等級維持一

→

kaltu05/09 02:38, 14F

致性啊

→

kaltu05/09 02:38, 15F

只有圖像或文字的表面紋理層次能乍看之下正常，更深

→

kaltu05/09 02:38, 16F

層問題的就無法用目標表達，現在的模型就是最佳化機

→

kaltu05/09 02:38, 17F

器而已，你沒辦法包進目標函數的性質就不會受到任何

→

kaltu05/09 02:38, 18F

重視

→

kaltu05/09 02:38, 19F

現在的問題是明顯的文字不一致有辦法變成loss funct

→

kaltu05/09 02:38, 20F

ion，但整個文脈邏輯不通、圖片的背景邏輯不合理、

→

kaltu05/09 02:38, 21F

架構圖意義不明這種問題還沒辦法用一個簡單的可微函

→

kaltu05/09 02:38, 22F

數表達就沒有辦法訓練

→

previa05/09 02:59, 23F

光是目前AI做的圖，裡面要有中文文字就很難

→

previa05/09 03:00, 24F

目前看到的比如生成的場景廣告招牌都是方塊文

→

previa05/09 03:00, 25F

但那個文不是CKJ這種文字

→

yunf05/09 03:04, 26F

這種拼燒錢的遊戲最後也沒台灣的國際地位

→

DrTech05/09 06:57, 27F

文字不一致為什麼不能訓練loss function？現在的任

→

DrTech05/09 06:57, 28F

何LLM就是訓練輸入文字，與輸出文字不一致，不同啊

→

DrTech05/09 06:57, 29F

。

→

DrTech05/09 07:00, 30F

至於UML，stack圖，沒辦法畫，是你不會用吧。舉例：

→

DrTech05/09 07:00, 31F

寫一個pipeline，輸入需求，要求LLM輸出plantUML 文

→

DrTech05/09 07:00, 32F

字描述，再用程式吧UML完成畫出就好。

→

DrTech05/09 07:05, 33F

可能文字上有什麼誤會吧。

推

holebro05/09 08:23, 34F

名字不會跟gpt2搞錯嗎

→

kaltu05/09 09:59, 35F

我不就是說明顯的文字不一致可以變loss function，

→

kaltu05/09 09:59, 36F

問題是文字邏輯不通怎麼寫的？用字文法構句結構段落

→

kaltu05/09 09:59, 37F

結構文章結構可能都有辦法，但內文狗屁不通和勉強通

→

kaltu05/09 09:59, 38F

順和正常的loss function怎麼寫？ChatGPT現在是用RL

→

kaltu05/09 09:59, 39F

同時生兩篇給使用者投票搞，但這效率對超大型網路需

→

kaltu05/09 09:59, 40F

要的對不起來

→

z51502605/09 19:25, 41F

沒用叫他寫一個FDTD 的core 寫那啥垃圾東西

→

z51502605/09 19:27, 42F

GPT? AI? 笨東西就是笨東西寫不出FDTD求解量子SOI

→

z51502605/09 19:27, 43F

波導的最佳解。另類翻譯軟體跟寫作文玩具垃圾

→

labell05/09 20:34, 44F

有防止駭客改文件ai嗎

→

previa05/10 10:01, 45F

DrTech我要的是這種 https://tinyl.io/AlN8

→

previa05/10 10:01, 46F

這種你有辦法讓GPT弄出來?

→

ptta05/11 09:59, 47F

現在證實這不是openAI的產品

jackliao1990 作者的近期文章

12Tech_Job

[討論] OpenAI敢讓菜鳥負責大項目反觀Google

https://x.com/_jasonwei/status/1791192069022810444 從Google Brain跳槽OpenAI的Jason Wei分享了新舊公司的差異: "OpenAI（可能還有其他小公司）的一件

17Tech_Job

[新聞] 英特爾搶用新EUV 專家：成本高虧損恐擴大

英特爾搶用新EUV 專家：成本高虧損恐擴大 https://udn.com/news/story/7240/7973970 英特爾（Intel）搶先導入艾司摩爾（ASML）的高數值孔徑極紫外光（High-NA EUV）設備，為外界視為是英

14Tech_Job

[新聞] 18個月，OpenAI這支團隊搞出了GPT-4o

https://www.jiqizhixin.com/articles/2024-05-16-6 機器之心奧特曼：如果沒有他（Prafulla Dhariwal）的遠見、才華、信念和決心，就不會有 GPT-4o。「GPT-4o 的誕生離

10Tech_Job

[新聞] 台積電鳳凰城廠區驚傳爆炸！釀成至少1

https://udn.com/news/story/6811/7967231 台積電鳳凰城廠區驚傳爆炸！釀成至少1人重傷盧思綸 ABC15 Arizona新聞報導，美國當地時間15日下午，台積電位於亞利桑那州北鳳凰城廠區驚傳爆炸，造成

27Tech_Job

[新聞] 中國特級技師手工磨出5奈米零件？媒體人

26Tech_Job

[情報] OpenAI放搜尋引擎假消息來抓內鬼

15Tech_Job

[分享] "用數學賺錢比印鈔機還快"Simons去世

https://www.qbitai.com/2024/05/141161.html 量化之王謝幕，“用數學賺錢比印鈔機還快” 克雷西西風數學物理計算機金融界都在悼念他 86歲美國「老頭兒」的突然離世，在學術界和產業界都引發了未曾預

30Tech_Job

[討論] 百度副總灌老闆言論引發炎上

https://www.youtube.com/watch?v=uf7KyAhOf4Q 勞動節連假時前新華社記者/華為公共事務部副總裁現任百度公關副總裁璩靜在抖音發了四段短片影片中的她職場金句(幹話)連發 "我根本沒有義務去

1Tech_Job

[新聞] 陸若攻台掌控台積電？雷蒙多：恐毀滅美國

陸若攻台掌控台積電？雷蒙多：恐毀滅美國經濟 https://www.ctee.com.tw/news/20240509700545-430801 許庭瑛美國商務部長雷蒙多（Gina Raimondo）9日說，大陸如果攻打台灣，並且掌控台

更多 jackliao1990 作者的文章...