※ 本文轉寄自 ptt.cc, 文章原始頁面

看板Tech_Job

作者jackliao1990 (j)

標題

[新聞] 首個AI程式師造假被抓，Devin再次「震撼

時間2024-04-15 12:54:03

最新2024-04-18 00:00:00

留言57則留言，39人參與討論

推噓10 ( 21推11噓25→ )

回文2則回文

首個AI程式師造假被抓，Devin再次「震撼」矽谷！扒皮詳解附上 https://www.qbitai.com/2024/04/135315.html 衡宇人類只需36分鐘就能搞定的工作首個AI程式師，演示視頻大幅度造假??? 不久之前震撼矽谷的Devin，再度震撼矽谷——但這次是被打假。事情是這樣的：油管程式師博主Internet of Bugs（以下簡稱光頭哥）對Devin的視頻進行了逐幀分析，逐一舉證說明瞭Devin並不如演示中那般神奇。甚至有“自己現寫bug然後當場修復”的騷操作。其它「罪證」，包括但不限於：號稱能解決任何Upwork任務，但演示中解決的問題並不是prompt要解決的那一個，做無用功; 看起來在修復bug，實際上修復的bug人類程式師根本就不會犯; 沒有意識到簡單兩步就能解決問題，花裡胡哨一頓操作，其實是自己把任務搞複雜了; 修改代碼的水準一言難盡。此外，光頭哥花了半個多小時，把Devin演示視頻中的upwork任務完成了一遍——而Devin 完成任務可能用時6個多小時。啊這這這，真是好、大、一、口、瓜！要知道，其背後公司Cognition AI手握10塊IOI金牌的活招牌，還在推出Devin當月宣佈成功融資2100萬美金。推特和YC上已經吵翻天了，讓這件事的討論度高居不下。我請問呢？真的很討厭演示造假，讓demo看起來輕鬆達到意料之外的技術進步。還有人表示自己很受傷，再也不會相信各種冒出來的創業公司的東西了。 emmmm...... 我還是把期待值全部留給OpenAI、Anthropic、DeepMind、FAIR這些公司和機構吧。完整詳情，一起接著往下看。 35年從業者逐幀驗證此次出來聲張正義的光頭哥，從事軟體行業已經35年。他首先聲明自己的立場：我並不反對高科技，但我確實反對過度炒作。他自己也經常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。事實上，在Devin剛推出時候，他就反對過「世界上第一個AI軟體工程師」這一說法。此次則主要針對的是一些更為具體的說法。比如之前Devin號稱能夠靠處理upwork任務來賺錢的。但在真正的演示中Devin並沒有做到這一點。不信？沒關係，光頭哥帶著逐幀的證據來了。總結如下： Devin所處理的任務並非隨機，而是精心挑選; 與客戶實際需求有很大的出入; 實際操作過程，數次自己創造bug然後再修復; 很多毫無意義的操作，相當於幾十年前在C語言中才用的方法; ？？？首先，來到了演示視頻的2.936秒處，在螢幕左上角有顯示他們搜索過這個內容。因此，這不是所謂「隨機」選擇的任務。 https://www.qbitai.com/wp-content/uploads/replace/8ae7a7a5c79570dd8a38d11398f14359.png 再來看客戶給到的具體需求。真正需求為“我想要利用這個庫來進行推理。你需要提供詳細的操作指南。我不想討論完成這項工作預計需要的時間。 ” 但給到Devin的需求卻是：我希望利用這個模型在這個庫中進行推理。請自己弄明白。最後視頻末尾出現的Devin生成報告中，也沒有提及客戶實際需要的內容。那麼，這份工作的最終交付成果應該包括什麼呢？但Devin實際做了什麼？ Devin第一次真正的嘗試，是它修改了一個名為requirements.txt檔，其中規定了代碼所依賴的庫版本。視頻中提到它正在更新代碼，但實際上更像是修改配置檔。然後根據需求，需要Devin能建立自己的推理能力，並僅需使用樣例數據即可。但實際專案要比這個複雜得多。結果很快，Devin就遇到了第一個命令行錯誤——打開圖像失敗、檔未找到、無此檔或目錄等。但在光頭哥實際復現時並沒有出現，結果研究發現，代碼倉庫壓根就不存在這個檔。這相當於Devin自己創建了個bug，然後再修復bug。在接下來的操作中，Devin經歷了很多次這樣的“自建自修”。不能說十分有用，只能說完全沒有必要。接下來，再來看看代碼庫中這樣一個readme檔。正如視頻所展示的那樣，readme檔清晰地說明了該檔的功能和用法。在頁面右側，甚至還有一個小按鈕，點擊它就可以複製整條命令，然後粘貼到命令行視窗中，按下回車即可運行。但Devin完全沒能理解，而又是自創了個專案。而寫的那段從緩衝區讀取數據的代碼十分糟糕。於是光頭哥發出了靈魂拷問：這不就是幾十年前在C語言等中才用的方法嗎??? 這種做法顯然已經過時，正常人用Python誰還會再寫這個代碼。這種代碼很難調試，它邏輯複雜，難以理解，很容易出現細微的錯誤。此外，代碼庫中還存在一個真正的錯誤，但Devin既沒有發現也沒有修復。然後光頭哥用谷歌搜索，按照GitHub 上一條相關評論修改了代碼，只花了1分07秒，問題就解決了。最終光頭哥總共花了35分55秒複現了Devin的工作，而Devin實際花了多長時間呢？如果細看視頻Demo，就會發現Devin處理工作前後有6個小時20分鐘的間隔。視頻的前部分顯示的是3月9日下午3：25 的時間戳，但後半部分卻顯示的是當天晚上9： 41。 https://www.qbitai.com/wp-content/uploads/replace/d296e9d1a995799c610756ddee0de6d5.png 而逐幀細看就有會發現一些奇怪且毫無意義的操作。比如head -N 5 results.json | tail -N 5這個命令，它表示取這個JSON 檔的前五行，然後再取這些行的最後五行。正確的做法應該是“head-5 results.json”。那個-N 是多餘的。只要說 -5 就可以，不需要那些多餘的東西。最後光頭哥銳評，AI現在生成的內容有很多都十分愚蠢，反倒會讓事情變得更為複雜。當看到它的任務清單時，會覺得：哇，Devin做了很多事情。但實際上可能並非如此。網友：至少掌握了看起來很忙的技巧對於此次Devin造假翻車，不少網友對現階段AI產品炒作嗤之以鼻。我真的很討厭現在演示造假變得如此正常化甚至還列出了三大炒作典範：Devin、rabbit、Humane。也有網友調侃：Devin至少掌握了看起來很忙的技巧。嗯？打工人有被內涵到。不過也有一些支持的網友，比如這位沃頓商學院的教授Ethan Mollick。他聲稱自己有早期訪問權，在體驗中發現真的很有趣。他認為現在將Agent視作“炒作”為時尚早，未來幾個月Agent的能力將十分強大。號稱“世界首個完全自主的AI軟體工程師” 有意思的是，演示造假事件爆出來的時間，距離Cognition AI推出Devin僅過去了一個月。咱們一起來回顧一下。一個月前的3月13日，Cognition AI在推特上介紹了自家推出的Devin，並稱其為“世界上首個AI軟體工程師”。只需一句指令，它可端到端地處理整個開發專案。主創介紹，Devin在長程推理和規劃上面下了很大功夫，可以規劃和執行需要數千個決策才能完成的複雜軟體工程任務。具體來說有6大功能：端到端構建和部署程式，可以解決的不只是代碼問題，還包括與之相關的整個工作流; 自主查找並修復bug; 訓練和微調自己的AI模型; 修復開源庫; 為成熟的生產庫做貢獻; 超強學習能力，即時補足知識和能力短板。 Devin完整技術報告中顯示，在SWE-bench基準測試中，無需人類輔助，Devin可解決 13.86%的問題 ——這個數據看起來不高，但其實已經超過了此前所有AI大模型的成績。目前數一數二的GPT-4，在同個測試中的成績只有1.74%，且必須配備一個人類，提示它要處理哪些檔。當時的Devin團隊一副沒在怕的樣子。雖然沒開放公測，但陸陸續續給出了一些內測名額。在互聯網上搜索一番，發現上手體驗過的人給的買家秀反饋是這樣的：熱衷AI的沃頓商學院教授Ethan Molick試過後，認為其新穎的即時交互方式是最值得關注的。他要求Devin開發一個解釋「創業公司融資中的股權稀釋」的網站，隨後透露，AI還無法在沒有任何幫助的情況下，自主且無差錯地完成這項工作。。但也有人直接表示，體驗過後確實是有被震撼到。巧的是，截圖中的這個首批內測體驗者Bubna哥，是AI基礎設施創業公司Modal Labs的CTO 。後來他和Devin還聯手搞了個新聞。 Devin用自家老闆的賬號，潛入Modal Labs的工作群，和Bubna哥一番交流過後，根據回復調整了代碼方案，解決了一個技術問題。 https://www.qbitai.com/wp-content/uploads/replace/2177b410aec6073bb83de4ba7c07ea79.png △圖中的發言人背後其實是Devin 當然，除了看上去哄哄的技術，Devin還鍍了一層光環，那就是背後公司Cognition，雖然是個小初創，但在招人資訊中明晃晃寫著：我們團隊手裡握著10塊IOI金牌呢~ 技術演示和團隊背景都吸睛Max，直接給Devin的傳播力度添磚加瓦。也正是因為對Devin的關注，代碼生成領域在過去一段時間里進展是突飛猛進。暫時無法在飛書文檔外展示此內容比如，GitHub三萬Star專案MetaGPT就上新了「開源版Devin」，名為數據解釋器（Data Interpreter）：阿裡Qwen成員Binyan Hui等人開啟了OpenDevin專案，一個月過去已經在GitHub攬星 21.5k; 普林斯頓那邊動作更快，用GPT-4打造了開源SWE-agent，開箱即用，可修復GitHub存儲庫中真實bug。在25%的SWE-bench測試集上，它實現了與Devin演示視頻中相似的準確度—— 解決了 12.29%的問題。還有各個大廠也開始入駐自己的AI程式師...... One More Thing 結果現在發生這件事兒，怎麼說呢...... 往好了想，真是救大命了，所有的程式師們都要鬆口氣了，還好還好，AI暫時還無法端到端端走我的飯碗。往壞了想，真是要了命了，這麼一個備受關注的明星專案居然是個只能活在視頻里的demo 。難道世界真的是個巨大的草台班子??? 參考連結： [1]https://twitter.com/oran_ge/status/1778968102610546762?s=46&t=S65Q3TssMnzcxLETGqaDFQ [2] https://twitter.com/0interestrates/status/1779268441226256500 [3]https://news.ycombinator.com/item?id=40008109 [4] https://www.youtube.com/watch?v=tNmgmwEtoWE

-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.87.176.211 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1713156852.A.647.html

AI

Re: 回文串

1057

> [新聞] 首個AI程式師造假被抓，Devin再次「震撼

Tech_Job04/15 12:54

Re: [新聞] 首個AI程式師造假被抓，Devin再次「震撼

Tech_Job04/15 19:41

57 則留言

※ 編輯: jackliao1990 (219.87.176.211 臺灣), 04/15/2024 13:01:42

噓

joefaq04/15 13:39, 1F

這篇也是AI產生的新聞嗎

→

qwas6516651604/15 13:39, 2F

這比較像是過度吹噓成果，但應該還不到造假的程度

推

abccbaandy04/15 13:47, 3F

就跟現在的chatgpt系列差不多吧，真的用就知道還是

→

abccbaandy04/15 13:48, 4F

很多問題，不過確實比以前那種智能客服強多了

噓

CCWck04/15 13:57, 5F

老是貼這些對岸廢文幹嘛

推

nipage1604/15 14:19, 6F

感覺文章很亂，反正內容就是吹過頭了外加演示有造假

→

s161231604/15 14:24, 7F

AI已經到瓶頸了再上去只能靠造假

推

mooto04/15 14:27, 8F

從業35年半，目前效率是AI的12倍，看起來很有搞頭啊

→

mooto04/15 14:27, 9F

，能打趴菜鳥跟阿三了吧

推

fr7504/15 14:31, 10F

找一堆IOI掛名吸金哈哈創投就是這樣騙天使

→

samm332004/15 14:35, 11F

都嘛先吹拿到錢，後面做出來就是英雄，做不出來就

→

samm332004/15 14:35, 12F

變詐騙

推

steak556604/15 15:03, 13F

剛出來的時候就有人在說了

推

TSMCfabXX04/15 15:04, 14F

先吸到金比較重要

推

abbei04/15 15:27, 15F

Fake it until make it. 懂得都懂

噓

lulu263004/15 15:52, 16F

看得很痛苦

推

Aquarius12604/15 15:56, 17F

本來就還要一段，但不會用AI輔助的人，生產效率會逐

→

Aquarius12604/15 15:56, 18F

漸落後

噓

illya6553604/15 16:13, 19F

文章看的很痛苦

噓

kriswu802104/15 16:40, 20F

→

yunf04/15 17:28, 21F

那還不簡單你就針對你覺得有問題的那個點做處理就好

→

yunf04/15 17:28, 22F

比方說世界上第一個AI軟體工程師這句話是誰說的把它

→

yunf04/15 17:28, 23F

找出來！把關鍵的矛盾找出來然後處理就這麼簡單！

→

yunf04/15 17:32, 24F

就人在手工修正bug了閱讀能力是哪裡有問題？

推

xam04/15 17:33, 25F

"至少掌握了看起來很忙的技巧" 這AI模擬工程師非常

→

xam04/15 17:33, 26F

成功吧

→

x61s04/15 17:48, 27F

建議原po扼要列重點再帶原po連結就好

推

steak556604/15 18:06, 28F

自己寫bug然後再修掉這蠻有人味的

推

Lowpapa04/15 18:06, 29F

中文去重修吧

推

abc736039304/15 18:32, 30F

雖然Devin可能是假的但openDevin是可以自己clone下

→

abc736039304/15 18:32, 31F

來玩的專案實際用起來其實滿驚人的當然跟人類還是

→

abc736039304/15 18:32, 32F

差很多啦

推

xfaw4d35t04/15 18:33, 33F

AI已經學會裝忙了天跟我

推

SHANGOYANYI04/15 19:04, 34F

其實挺真實的 jr dev本來就長這樣XD

推

thomasgili04/15 19:10, 35F

呵呵 AI ML無聊透頂

→

h79718j0604/15 19:11, 36F

話說台湾有啥權威的科技記者嗎？

推

yudofu04/15 19:15, 37F

能這麼明確地找出缺點，debug有困難嗎？何況甚麼犯

→

yudofu04/15 19:16, 38F

人類不會犯的錯....那又怎樣，人家AI有的是時間修

噓

revivalist04/15 19:44, 39F

文章複製貼上真容易

噓

k2005704/15 21:39, 40F

煩ㄟ

推

forfan04/15 22:17, 41F

哇操，居然提到飛書，那不就是翻譯對岸人家的線上文

→

forfan04/15 22:17, 42F

檔

噓

luweber8804/15 22:22, 43F

圖的網址可以縮一下嗎手機點不開

推

Csongs04/16 04:38, 44F

人類始終變成驗收角色,ai算力強後,這些缺點就會慢慢

→

Csongs04/16 04:38, 45F

改善

推

justaID04/16 05:27, 46F

至少掌握了看起來很忙的技巧lol 平心而論，不至於

→

justaID04/16 05:27, 47F

說造假，但有造神炒作的成份，未來模型更成熟可以

→

justaID04/16 05:27, 48F

期待，但現階段還不夠

噓

wiisonjacky04/16 07:44, 49F

這篇文也是AI生成的吧

噓

qoo6060604/16 08:07, 50F

這篇ai生成都比較順

→

LearnRPG04/16 08:31, 51F

糟糕 AI連裝忙都會了人類真的要被取代掉了 XD

→

shooter55504/16 10:58, 52F

看起來AI工程師可以在台灣活得很好

推

twolight04/16 19:53, 53F

ai就只是自動生成工具，但只要沒有比馮紐曼模型更

→

twolight04/16 19:53, 54F

強的計算機出現，就不可能脫離這個範疇

推

reich304/17 11:52, 55F

這篇文法也是AI機翻？

→

reich304/17 11:54, 56F

這篇沒通過我的圖靈測試

噓

jack7013404/18 00:00, 57F

廢話太多少貼這種爛東西好嗎

jackliao1990 作者的近期文章

16Tech_Job

[討論] 微軟CEO：Copilot Workspace重新定義IDE

212Tech_Job

[情報] 勞動部公布去年新鮮人薪資情況

24Tech_Job

[新聞] 台積電1舉動專家拋警告！死敵恐重回「霸

台積電1舉動專家拋警告！死敵恐重回「霸主地位」科技中心／柯美儀報導英特爾採用ASML高數值孔徑極紫外光EUV曝光機技術，而台積電卻不願立即採用，外媒認為，這將為英特爾重拾光環地位，打開另一個狹窄的窗口。根據美國科技媒體wccftec

15Tech_Job

[新聞] 丘成桐:中國科技水準至少倒退20年

清華學者丘成桐：照習路線走中國科技至少倒退20年 https://www.iask.ca/news/873999 清華大學學者丘成桐表示，如果中國目前的科技發展路線繼續下去，中國的科技水準至少可能會倒退20年。（本照資料照）根據《網

12Tech_Job

[新聞] Meta裁員22%　半數員工卻可領1235萬台幣

祖克柏員工不好當？Meta裁員22%半數員工卻可領1235萬台幣年薪 https://www.nownews.com/news/6415638 楊智傑社群平台臉書、Instagram的母公司「Meta」近年來進行人事結構調整，自2022年

14Tech_Job

[新聞] 日本菁英搶進台積電東大教授推薦：聯發

日本菁英搶進台積電東大教授推薦：聯發科也是好選擇 https://news.tvbs.com.tw/world/2469449 劉哲琪「護國神山」台積電於熊本設廠後，在日本掀起半導體熱潮，許多優秀菁英都希望能進入相關業界工作。日本東京大

33Tech_Job

[新聞] 35歲就不要了！這家企業爆「逼退員工」手

35歲就不要了！這家企業爆「逼退員工」手段超難堪 https://tinyurl.com/43nxjy86 柯美儀全球經濟不景氣，各行各業都受到衝擊，韓國企業為了應對財務壓力，開始削減人力成本，就連30多歲的員工也可能丟了飯碗，但公司

66Tech_Job

[新聞] 輝達來台設全亞洲首座研發中心經濟部

https://www.chinatimes.com/amp/realtimenews/20240426002476-260410 繼Google昨（25）日正式啟用位在新北市板橋的第二棟全新硬體研發辦公大樓，經濟部產業技術司長邱求慧今（

53Tech_Job

[新聞] 開箱Google台灣新辦公室！美國外最大硬體

21Tech_Job

[新聞] 黃仁勳曝：我掃過的廁所比你們還要多

想成功得先承受苦難！黃仁勳曝：我掃過的廁所比你們還要多 https://tinyurl.com/6t3br7a3 張君堯 AI教父、晶片大廠輝達（Nvidia）執行長黃仁勳（Jensen Huang）在全球的知名度不斷攀升，繼先前表示「

更多 jackliao1990 作者的文章...