※ 本文轉寄自 ptt.cc, 文章原始頁面
看板Tech_Job
標題

[新聞] 首個AI程式師造假被抓,Devin再次「震撼

最新2024-04-18 00:00:00
留言57則留言,39人參與討論
推噓10 ( 211125 )
首個AI程式師造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 https://www.qbitai.com/2024/04/135315.html 衡宇 人類只需36分鐘就能搞定的工作 首個AI程式師,演示視頻大幅度造假??? 不久之前震撼矽谷的Devin,再度震撼矽谷——但這次是被打假。 事情是這樣的:油管程式師博主Internet of Bugs(以下簡稱光頭哥)對Devin的視頻進 行了逐幀分析,逐一舉證說明瞭Devin並不如演示中那般神奇。 甚至有“自己現寫bug然後當場修復”的騷操作。 其它「罪證」,包括但不限於: 號稱能解決任何Upwork任務,但演示中解決的問題並不是prompt要解決的那一個,做無用 功; 看起來在修復bug,實際上修復的bug人類程式師根本就不會犯; 沒有意識到簡單兩步就能解決問題,花裡胡哨一頓操作,其實是自己把任務搞複雜了; 修改代碼的水準一言難盡。 此外,光頭哥花了半個多小時,把Devin演示視頻中的upwork任務完成了一遍——而Devin 完成任務可能用時6個多小時。 啊這這這,真是好、大、一、口、瓜! 要知道,其背後公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當月宣佈成 功融資2100萬美金。 推特和YC上已經吵翻天了,讓這件事的討論度高居不下。 我請問呢?真的很討厭演示造假,讓demo看起來輕鬆達到意料之外的技術進步。 還有人表示自己很受傷,再也不會相信各種冒出來的創業公司的東西了。 emmmm...... 我還是把期待值全部留給OpenAI、Anthropic、DeepMind、FAIR這些公司和 機構吧。 完整詳情,一起接著往下看。 35年從業者逐幀驗證 此次出來聲張正義的光頭哥,從事軟體行業已經35年。 他首先聲明自己的立場:我並不 反對高科技,但我確實反對過度炒作。 他自己也經常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。 事實上,在Devin剛推出時候,他就反對過「世界上第一個AI軟體工程師」這一說法。 此次則主要針對的是一些更為具體的說法。 比如之前Devin號稱能夠靠處理upwork任務來賺錢的。 但在真正的演示中Devin並沒有做 到這一點。 不信?沒關係,光頭哥帶著逐幀的證據來了。 總結如下: Devin所處理的任務並非隨機,而是精心挑選; 與客戶實際需求有很大的出入; 實際操作過程,數次自己創造bug然後再修復; 很多毫無意義的操作,相當於幾十年前在C語言中才用的方法; ??? 首先,來到了演示視頻的2.936秒處,在螢幕左上角有顯示他們搜索過這個內容。 因此, 這不是所謂「隨機」選擇的任務。 https://www.qbitai.com/wp-content/uploads/replace/8ae7a7a5c79570dd8a38d11398f14359.png 再來看客戶給到的具體需求。 真正需求為“我想要利用這個庫來進行推理。 你需要提供 詳細的操作指南。 我不想討論完成這項工作預計需要的時間。 ” 但給到Devin的需求卻是:我希望利用這個模型在這個庫中進行推理。 請自己弄明白。 最後視頻末尾出現的Devin生成報告中,也沒有提及客戶實際需要的內容。 那麼,這份工作的最終交付成果應該包括什麼呢? 但Devin實際做了什麼? Devin第一次真正的嘗試,是它修改了一個名為requirements.txt檔,其中規定了代碼所 依賴的庫版本。 視頻中提到它正在更新代碼,但實際上更像是修改配置檔。 然後根據需求,需要Devin能建立自己的推理能力,並僅需使用樣例數據即可。 但實際專 案要比這個複雜得多。 結果很快,Devin就遇到了第一個命令行錯誤——打開圖像失敗、檔未找到、無此檔或目 錄等。 但在光頭哥實際復現時並沒有出現,結果研究發現,代碼倉庫壓根就不存在這個 檔。 這相當於Devin自己創建了個bug,然後再修復bug。 在接下來的操作中,Devin經歷了很 多次這樣的“自建自修”。 不能說十分有用,只能說完全沒有必要。 接下來,再來看看代碼庫中這樣一個readme檔。 正如視頻所展示的那樣,readme檔清晰 地說明了該檔的功能和用法。 在頁面右側,甚至還有一個小按鈕,點擊它就可以複製整 條命令,然後粘貼到命令行視窗中,按下回車即可運行。 但Devin完全沒能理解,而又是自創了個專案。 而寫的那段從緩衝區讀取數據的代碼十分 糟糕。 於是光頭哥發出了靈魂拷問: 這不就是幾十年前在C語言等中才用的方法嗎??? 這種做法顯然已經過時,正常人用Python誰還會再寫這個代碼。 這種代碼很難調試,它 邏輯複雜,難以理解,很容易出現細微的錯誤。 此外,代碼庫中還存在一個真正的錯誤,但Devin既沒有發現也沒有修復。 然後光頭哥用谷歌搜索,按照GitHub 上一條相關評論修改了代碼,只花了1分07秒,問題 就解決了。 最終光頭哥總共花了35分55秒複現了Devin的工作,而Devin實際花了多長時間呢? 如果細看視頻Demo,就會發現Devin處理工作前後有6個小時20分鐘的間隔。 視頻的前部分顯示的是3月9日下午3:25 的時間戳,但後半部分卻顯示的是當天晚上9: 41。 https://www.qbitai.com/wp-content/uploads/replace/d296e9d1a995799c610756ddee0de6d5.png 而逐幀細看就有會發現一些奇怪且毫無意義的操作。 比如head -N 5 results.json | tail -N 5這個命令,它表示取這個JSON 檔的前五行, 然後再取這些行的最後五行。 正確的做法應該是“head-5 results.json”。 那個-N 是多餘的。 只要說 -5 就可以, 不需要那些多餘的東西。 最後光頭哥銳評,AI現在生成的內容有很多都十分愚蠢,反倒會讓事情變得更為複雜。 當看到它的任務清單時,會覺得:哇,Devin做了很多事情。 但實際上可能並非如此。 網友:至少掌握了看起來很忙的技巧 對於此次Devin造假翻車,不少網友對現階段AI產品炒作嗤之以鼻。 我真的很討厭現在演示造假變得如此正常化 甚至還列出了三大炒作典範:Devin、rabbit、Humane。 也有網友調侃:Devin至少掌握了看起來很忙的技巧。 嗯?打工人有被內涵到。 不過也有一些支持的網友,比如這位沃頓商學院的教授Ethan Mollick。 他聲稱自己有早期訪問權,在體驗中發現真的很有趣。 他認為現在將Agent視作“炒作”為時尚早,未來幾個月Agent的能力將十分強大。 號稱“世界首個完全自主的AI軟體工程師” 有意思的是,演示造假事件爆出來的時間,距離Cognition AI推出Devin僅過去了一個月 。 咱們一起來回顧一下。 一個月前的3月13日,Cognition AI在推特上介紹了自家推出的Devin,並稱其為“世界上 首個AI軟體工程師”。 只需一句指令,它可端到端地處理整個開發專案。 主創介紹,Devin在長程推理和規劃上面下了很大功夫,可以規劃和執行需要數千個決策 才能完成的複雜軟體工程任務。 具體來說有6大功能: 端到端構建和部署程式,可以解決的不只是代碼問題,還包括與之相關的整個工作流; 自主查找並修復bug; 訓練和微調自己的AI模型; 修復開源庫; 為成熟的生產庫做貢獻; 超強學習能力,即時補足知識和能力短板。 Devin完整技術報告中顯示,在SWE-bench基準測試中,無需人類輔助,Devin可解決 13.86%的問題 ——這個數據看起來不高,但其實已經超過了此前所有AI大模型的成績。 目前數一數二的GPT-4,在同個測試中的成績只有1.74%,且必須配備一個人類,提示它要 處理哪些檔。 當時的Devin團隊一副沒在怕的樣子。 雖然沒開放公測,但陸陸續續給出了一些內測名額。 在互聯網上搜索一番,發現上手體驗過的人給的買家秀反饋是這樣的: 熱衷AI的沃頓商學院教授Ethan Molick試過後,認為其新穎的即時交互方式是最值得關注 的。 他要求Devin開發一個解釋「創業公司融資中的股權稀釋」的網站,隨後透露,AI還無法 在沒有任何幫助的情況下,自主且無差錯地完成這項工作。 。 但也有人直接表示,體驗過後確實是有被震撼到。 巧的是,截圖中的這個首批內測體驗者Bubna哥,是AI基礎設施創業公司Modal Labs的CTO 。 後來他和Devin還聯手搞了個新聞。 Devin用自家老闆的賬號,潛入Modal Labs的工作群 ,和Bubna哥一番交流過後,根據回復調整了代碼方案,解決了一個技術問題。 https://www.qbitai.com/wp-content/uploads/replace/2177b410aec6073bb83de4ba7c07ea79.png △圖中的發言人背後其實是Devin 當然,除了看上去 哄哄的技術,Devin還鍍了一層光環,那就是背後公司Cognition,雖然是個小初創,但在 招人資訊中明晃晃寫著: 我們團隊手裡握著10塊IOI金牌呢~ 技術演示和團隊背景都吸睛Max,直接給Devin的傳播力度添磚加瓦。 也正是因為對Devin的關注,代碼生成領域在過去一段時間里進展是突飛猛進。 暫時無法在飛書文檔外展示此內容 比如,GitHub三萬Star專案MetaGPT就上新了「開源版Devin」,名為數據解釋器(Data Interpreter): 阿裡Qwen成員Binyan Hui等人開啟了OpenDevin專案,一個月過去已經在GitHub攬星 21.5k; 普林斯頓那邊動作更快,用GPT-4打造了開源SWE-agent,開箱即用,可修復GitHub存儲庫 中真實bug。 在25%的SWE-bench測試集上,它實現了與Devin演示視頻中相似的準確度—— 解決了 12.29%的問題。 還有各個大廠也開始入駐自己的AI程式師...... One More Thing 結果現在發生這件事兒,怎麼說呢...... 往好了想,真是救大命了,所有的程式師們都要鬆口氣了,還好還好,AI暫時還無法端到 端端走我的飯碗。 往壞了想,真是要了命了,這麼一個備受關注的明星專案居然是個只能活在視頻里的demo 。 難道世界真的是個巨大的草台班子??? 參考連結: [1]https://twitter.com/oran_ge/status/1778968102610546762?s=46&t=S65Q3TssMnzcxLETGqaDFQ [2] https://twitter.com/0interestrates/status/1779268441226256500 [3]https://news.ycombinator.com/item?id=40008109 [4] https://www.youtube.com/watch?v=tNmgmwEtoWE
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.87.176.211 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1713156852.A.647.html

Re: 回文串

1057
> [新聞] 首個AI程式師造假被抓,Devin再次「震撼
Tech_Job04/15 12:54

57 則留言

※ 編輯: jackliao1990 (219.87.176.211 臺灣), 04/15/2024 13:01:42

joefaq, 1F
這篇也是AI產生的新聞嗎

qwas65166516, 2F
這比較像是過度吹噓成果,但應該還不到造假的程度

abccbaandy, 3F
就跟現在的chatgpt系列差不多吧,真的用就知道還是

abccbaandy, 4F
很多問題,不過確實比以前那種智能客服強多了

CCWck, 5F
老是貼這些對岸廢文幹嘛

nipage16, 6F
感覺文章很亂,反正內容就是吹過頭了外加演示有造假

s1612316, 7F
AI已經到瓶頸了 再上去只能靠造假

mooto, 8F
從業35年半,目前效率是AI的12倍,看起來很有搞頭啊

mooto, 9F
,能打趴菜鳥跟阿三了吧

fr75, 10F
找一堆IOI掛名吸金 哈哈 創投就是這樣騙天使

samm3320, 11F
都嘛先吹拿到錢,後面做出來就是英雄,做不出來就

samm3320, 12F
變詐騙

steak5566, 13F
剛出來的時候就有人在說了

TSMCfabXX, 14F
先吸到金比較重要

abbei, 15F
Fake it until make it. 懂得都懂

lulu2630, 16F
看得很痛苦

Aquarius126, 17F
本來就還要一段,但不會用AI輔助的人,生產效率會逐

Aquarius126, 18F
漸落後

illya65536, 19F
文章看的很痛苦

kriswu8021, 20F

yunf, 21F
那還不簡單你就針對你覺得有問題的那個點做處理就好

yunf, 22F
比方說世界上第一個AI軟體工程師這句話是誰說的把它

yunf, 23F
找出來! 把關鍵的矛盾找出來然後處理就這麼簡單!

yunf, 24F
就人在手工修正bug了閱讀能力是哪裡有問題?

xam, 25F
"至少掌握了看起來很忙的技巧" 這AI模擬工程師非常

xam, 26F
成功吧

x61s, 27F
建議原po扼要列重點再帶原po連結就好

steak5566, 28F
自己寫bug然後再修掉 這蠻有人味的

Lowpapa, 29F
中文去重修吧

abc7360393, 30F
雖然Devin可能是假的 但openDevin是可以自己clone下

abc7360393, 31F
來玩的專案 實際用起來其實滿驚人的 當然跟人類還是

abc7360393, 32F
差很多啦

xfaw4d35t, 33F
AI已經學會裝忙了 天跟我

SHANGOYANYI, 34F
其實挺真實的 jr dev本來就長這樣XD

thomasgili, 35F
呵呵 AI ML無聊透頂

h79718j06, 36F
話說台湾有啥權威的科技記者嗎?

yudofu, 37F
能這麼明確地找出缺點,debug有困難嗎?何況甚麼犯

yudofu, 38F
人類不會犯的錯....那又怎樣,人家AI有的是時間修

revivalist, 39F
文章複製貼上真容易

k20057, 40F
煩ㄟ

forfan, 41F
哇操,居然提到飛書,那不就是翻譯對岸人家的線上文

forfan, 42F

luweber88, 43F
圖的網址可以縮一下嗎 手機點不開

Csongs, 44F
人類始終變成驗收角色,ai算力強後,這些缺點就會慢慢

Csongs, 45F
改善

justaID, 46F
至少掌握了看起來很忙的技巧lol 平心而論,不至於

justaID, 47F
說造假,但有造神炒作的成份,未來模型更成熟可以

justaID, 48F
期待,但現階段還不夠

wiisonjacky, 49F
這篇文也是AI生成的吧

qoo60606, 50F
這篇ai生成都比較順

LearnRPG, 51F
糟糕 AI連裝忙都會了 人類真的要被取代掉了 XD

shooter555, 52F
看起來AI工程師可以在台灣活得很好

twolight, 53F
ai就只是自動生成工具,但只要沒有比馮紐曼模型更

twolight, 54F
強的計算機出現,就不可能脫離這個範疇

reich3, 55F
這篇文法也是AI機翻?

reich3, 56F
這篇沒通過我的圖靈測試

jack70134, 57F
廢話太多 少貼這種爛東西好嗎

jackliao1990 作者的近期文章

[新聞] 台積電1舉動 專家拋警告!死敵恐重回「霸
台積電1舉動專家拋警告!死敵恐重回「霸主地位」 科技中心/柯美儀報導 英特爾採用ASML高數值孔徑極紫外光EUV曝光機技術,而台積電卻不願立即採用,外媒認 為,這將為英特爾重拾光環地位,打開另一個狹窄的窗口。 根據美國科技媒體wccftec
[新聞] 丘成桐:中國科技水準至少倒退20年
清華學者丘成桐:照習路線走 中國科技至少倒退20年 https://www.iask.ca/news/873999 清華大學學者丘成桐表示,如果中國目前的科技發展路線繼續下去,中國的科技水準至少 可能會倒退20年。 (本照資料照) 根據《網
[新聞] Meta裁員22% 半數員工卻可領1235萬台幣
祖克柏員工不好當?Meta裁員22%半數員工卻可領1235萬台幣年薪 https://www.nownews.com/news/6415638 楊智傑 社群平台臉書、Instagram的母公司「Meta」近年來進行人事結構調整,自2022年
[新聞] 日本菁英搶進台積電 東大教授推薦:聯發
日本菁英搶進台積電東大教授推薦:聯發科也是好選擇 https://news.tvbs.com.tw/world/2469449 劉哲琪 「護國神山」台積電於熊本設廠後,在日本掀起半導體熱潮,許多優秀菁英都希望能進入 相關業界工作。日本東京大
[新聞] 35歲就不要了!這家企業爆「逼退員工」手
35歲就不要了!這家企業爆「逼退員工」 手段超難堪 https://tinyurl.com/43nxjy86 柯美儀 全球經濟不景氣,各行各業都受到衝擊,韓國企業為了應對財務壓力,開始削減人力成本 ,就連30多歲的員工也可能丟了飯碗,但公司
[新聞] 輝達來台設全亞洲首座研發中心 經濟部
https://www.chinatimes.com/amp/realtimenews/20240426002476-260410 繼Google昨(25)日正式啟用位在新北市板橋的第二棟全新硬體研發辦公大樓,經濟部產業 技術司長邱求慧今(
[新聞] 黃仁勳曝:我掃過的廁所比你們還要多
想成功得先承受苦難! 黃仁勳曝:我掃過的廁所比你們還要多 https://tinyurl.com/6t3br7a3 張君堯 AI教父、晶片大廠輝達(Nvidia)執行長黃仁勳(Jensen Huang)在全球的知名度不斷攀 升,繼先前表示「
更多 jackliao1990 作者的文章...