国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 科技周邊 人工智能 登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題

登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題

Jul 17, 2024 pm 10:02 PM
工程

登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題
AIxiv專欄是本站發(fā)布學術、技術內(nèi)容的欄目。過去數(shù)年,本站AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

這篇論文的作者均來自伊利諾伊大學香檳分校(UIUC)張令明老師團隊,包括:Steven Xia,四年級博士生,研究方向是基于 AI 大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方向是基于 AI 大模型的代碼生成;Soren Dunn,科研實習生,目前為 UIUC 大三學生。張令明老師現(xiàn)任 UIUC 計算機系副教授,主要從事軟件工程、機器學習、代碼大模型的相關研究。

更多詳細信息請見張老師的個人主頁:https://lingming.cs.illinois.edu/

自從 Devin(首個全自動 AI 軟件工程師)提出以來,針對軟件工程的 AI Agent 的設計成為研究的焦點,越來越多基于 Agent 的 AI 自動軟件工程師被提出,并在 SWE-bench 數(shù)據(jù)集上取得了不俗的表現(xiàn)、自動修復了許多真實的 GitHub issue。

然而,復雜的 Agent 系統(tǒng)會帶來額外的開銷和不確定性,我們真的需要使用如此復雜的 Agent 來解決 GitHub issue 嗎?不依賴 Agent 的解決方案能接近它們的性能嗎?

從這兩個問題出發(fā),伊利諾伊大學香檳分校(UIUC)張令明老師團隊提出了 OpenAutoCoder-Agentless,一個簡單高效并且完全開源的無 Agent 方案,僅需 $0.34 就能解決一個真實的 GitHub issue。Agentless 在短短幾天內(nèi)在 GitHub 上已經(jīng)吸引了超過 300 GitHub Star,并登上了 DAIR.AI 每周最熱 ML 論文榜單前三。

登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題

  • 論文:AGENTLESS : Demystifying LLM-based Software Engineering Agents

  • 論文地址:https://huggingface.co/papers/2407.01489

  • 開源代碼:https://github.com/OpenAutoCoder/Agentless

AWS 研究科學家 Leo Boytsov 表示:“Agentless 框架表現(xiàn)優(yōu)異,超過所有開源 Agent 解決方案,幾乎達到 SWE Bench Lite 最高水平(27%)。而且,它以顯著更低的成本擊敗了所有開源方案。該框架采用分層查詢方法(通過向 LLM 提問來查找文件、類、函數(shù)等)以確定補丁位置。雖然利用 LLM,但不允許 LLM 做出規(guī)劃決策。”

登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題

Agentless 是一種自動解決軟件開發(fā)問題的方法,它使用簡單的兩階段方法進行定位和修復,以修復代碼庫中的 bug。在定位階段,Agentless 以分層方式來逐步縮小到可疑的文件、類 / 函數(shù)和具體的編輯位置。對于修復,它使用簡單的 diff 格式(參考自開源工具 Aider)來生成多個候選補丁,并對其進行過濾和排序。

登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題

研究者將 Agentless 與現(xiàn)有的 AI Software Agent 進行了比較,其中包括最先進的開源和商業(yè) / 閉源項目。令人驚訝的是,Agentless 可以以更低的成本超越所有現(xiàn)有的開源 Software Agent!Agentless 解決了 27.33% 的問題,是開源方案中最高的,并且解決每個問題平均僅需 $0.29,在所有問題上(包括能解決和未解決的)平均只需要約 $0.34。

登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題

不僅如此,Agentless 還有改進的潛力。在考慮所有生成的補丁時,Agentless 可以解決 41% 的問題,這個上限表明補丁排序和選擇階段有顯著的改進空間。此外,Agentless 能夠解決一些即使是最好的商業(yè)工具(Alibaba Lingma Agent)也無法解決的獨特問題,這表明它可以作為現(xiàn)有工具的補充。

登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題

對 SWE-bench Lite 數(shù)據(jù)集的分析

研究者還對 SWE-bench Lite 數(shù)據(jù)集進行了人工檢查和詳細分析。

研究發(fā)現(xiàn),SWE-bench Lite 數(shù)據(jù)集中,有 4.3% 的問題在問題描述中直接給出了完整的答案,也就是正確的修復補丁。而另外 10% 的問題描述了正確解決方案的確切步驟。這表明,SWE-bench Lite 中的某些問題可能更容易解決。

此外,研究團隊觀察到有 4.3% 的問題在問題描述中包含了用戶提議的解決方案或者步驟,但這些方案與開發(fā)人員的真實補丁并不一致。這進一步揭示了該基準測試的潛在問題,因為這些誤導性解決方案可能導致 AI 工具僅通過遵循問題描述來生成不正確的解決方案。

在問題描述質(zhì)量方面,研究者觀察到,雖然 SWE-bench Lite 中大部分的任務都包含了足夠的信息,并且許多任務還提供了失敗示例來復現(xiàn)錯誤,但是仍有 9.3% 的問題沒有包含足夠的信息。例如需要實現(xiàn)一個新的函數(shù)或者添加一個錯誤信息,但是特定的函數(shù)名或者特定的錯誤信息字符串并沒有在問題描述中給出。這意味著即使正確實現(xiàn)了底層功能,如果函數(shù)名或錯誤信息字符串不完全匹配,測試也會失敗。

登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題

普林斯頓大學的研究人員,同時也是 SWE-Bench 的作者之一,Ofir Press 確認了他們的發(fā)現(xiàn):“Agentless 對 SWE-bench Lite 進行了不錯的手動分析。他們認為 Lite 上的理論最高得分可能是 90.7%。我覺得實際的上限可能會更低(大約 80%)。一些問題的信息不足,另一些問題的測試過于嚴格?!?/p>

登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題

SWE-bench Lite-S:經(jīng)過過濾的嚴格問題子集

針對這些問題,研究者提出了一個嚴格的問題子集 SWE-bench Lite-S(包含 252 個問題)。具體來說,從 SWE-bench Lite(包含 300 個問題)中排除了那些在問題描述中包含確切補丁、誤導性解決方案或未提供足夠信息的問題。這樣可以去除不合理的問題,并使基準測試的難度水平標準化。與原始的 SWE-bench Lite 相比,過濾后的基準測試更準確地反映了自動軟件開發(fā)工具的真實能力。

結語

盡管基于 Agent 的軟件開發(fā)非常有前景,作者們認為技術和研究社區(qū)是時候停下來思考其關鍵設計與評估方法,而不是急于發(fā)布更多的 Agent。研究者希望 Agentless 可以幫助重置未來軟件工程 Agent 的基線和方向。

以上是登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題的詳細內(nèi)容。更多信息請關注PHP中文網(wǎng)其他相關文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權歸原作者所有,本站不承擔相應法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅動的應用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

熱門話題

Laravel 教程
1601
29
PHP教程
1502
276
arXiv論文可以發(fā)「彈幕」了,斯坦福alphaXiv討論平臺上線,LeCun點贊 arXiv論文可以發(fā)「彈幕」了,斯坦福alphaXiv討論平臺上線,LeCun點贊 Aug 01, 2024 pm 05:18 PM

干杯!當論文討論細致到詞句,是什么體驗?最近,斯坦福大學的學生針對arXiv論文創(chuàng)建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發(fā)布問題和評論。網(wǎng)站鏈接:https://alphaxiv.org/其實不需要專門訪問這個網(wǎng)站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區(qū),用戶可以發(fā)表問題詢問作者論文思路、細節(jié),例如:也可以針對論文內(nèi)容發(fā)表評論,例如:「給出至

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收獲1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO通過該項目,用戶輸入一張靜態(tài)圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪制過程,線條變化多端甚是神奇,最終視頻結果和原圖像非常相似:我們再來看一個完整的繪

黎曼猜想顯著突破!陶哲軒強推MIT、牛津新論文,37歲菲爾茲獎得主參與 黎曼猜想顯著突破!陶哲軒強推MIT、牛津新論文,37歲菲爾茲獎得主參與 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數(shù)學中一個非常重要的未解決問題,與素數(shù)分布的精確性質(zhì)有關(素數(shù)是那些只能被1和自身整除的數(shù)字,它們在數(shù)論中扮演著基礎性的角色)。在當今的數(shù)學文獻中,已有超過一千條數(shù)學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數(shù)學領域產(chǎn)生深遠的影響;而如果黎曼猜想被證明是錯誤的,那么這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數(shù)學教授LarryGuth和牛津大學

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統(tǒng)在更重要的領域得到應用,證明為什么我們可以信任它們的輸出,并明確何時不應信任它們,變得越來越重要。獲得對復雜系統(tǒng)輸出結果信任的一個可行方法是,要求系統(tǒng)對其輸出產(chǎn)生一種解釋,這種解釋對人類或另一個受信任的系統(tǒng)來說是可讀的,即可以完全理解以至于任何可能的錯誤都可以被發(fā)現(xiàn)。例如,為了建立對司法系統(tǒng)的信任,我們要求法院提供清晰易讀的書面意見,解釋并支持其決策。對于大型語言模型來說,我們也可以采用類似的方法。不過,在采用這種方法時,確保語言模型生

LLM用于時序預測真的不行,連推理能力都沒用到 LLM用于時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用于時序預測嗎?根據(jù)貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM并不能很好地處理時序數(shù)據(jù)。時序,即時間序列,顧名思義,是指一組按照時間發(fā)生先后順序進行排列的數(shù)據(jù)點序列。在很多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫(yī)療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和檢測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關系的語言模型也能泛化用于時間序

從RLHF到DPO再到TDPO,大模型對齊算法已經(jīng)是「token-level」 從RLHF到DPO再到TDPO,大模型對齊算法已經(jīng)是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發(fā)布學術、技術內(nèi)容的欄目。過去數(shù)年,本站AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能領域的發(fā)展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰(zhàn)之一,旨在確保這些模型既強大又安全地服務于人類社會。早期的努力集中于通過人類反饋的強化學習方法(RL

登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題 登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發(fā)布學術、技術內(nèi)容的欄目。過去數(shù)年,本站AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者均來自伊利諾伊大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基于AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

首個基于Mamba的MLLM來了!模型權重、訓練代碼等已全部開源 首個基于Mamba的MLLM來了!模型權重、訓練代碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv專欄是本站發(fā)布學術、技術內(nèi)容的欄目。過去數(shù)年,本站AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年來,多模態(tài)大型語言模型(MLLM)在各個領域的應用取得了顯著的成功。然而,作為許多下游任務的基礎模型,當前的MLLM由眾所周知的Transformer網(wǎng)絡構成,這種網(wǎng)

See all articles