領先一步
VMware 提供培訓和認證,助您加速進步。
瞭解更多我謹介紹兩個屬於 Spring AI 社群 GitHub 組織的新專案:Spring AI Agents 和 Spring AI Bench。這兩個專案專注於使用代理程式設計工具——您企業中可能已經擁有的工具。
到2025年,AI編碼代理已日趨成熟,需要被認真考慮用於企業級Java開發和一般的SDLC任務。領先的大型AI實驗室的例子包括Claude Code、Google的Gemini CLI、Amazon Q Developer和OpenAI的助手等CLI工具,此外還有小型初創公司和開源選項。這些代理式編碼工具能夠進行架構推理,理解大型程式碼庫,並有望幫助開發者更快地交付軟體。它們通常以“人在迴路中”的方式使用,但也可以被指示自主執行,直到確定目標已完成。
Spring AI Agents定義了一個輕量級但功能強大的可移植抽象:AgentClient。它作為呼叫自主CLI代理的一致介面。這允許開發者使用他們已有的代理工具,同時提供了靈活性,避免鎖定在單一供應商。
然而,AgentClient只是你有效使用代理工具所需的開發工具箱的一部分。Spring AI Agents提供了以下抽象,這些抽象結合起來可以產生最有效的結果:
配套專案Spring AI Bench是一個基準測試套件,用於評估代理在目標導向的企業工作流中的表現。它評估不同代理完成目標的效率,可以被視為透過Spring AI Agents執行任何代理的測試框架。
對該專案的需求源於我對現有代理式基準測試的調查。我發現它們主要關注Python,並且只解決了為GitHub問題提供程式碼補丁的用例。你在文獻中會看到以下模式:SWE-bench在其靜態、精選的Python問題集上表現出色,但當引入一組新的精選問題時,資料會急劇下降。在SWE-bench Verified上,代理在靜態Python集上的得分是60-75%;在SWE-bench-Live上,相同的執行下降到19%——下降了3倍。在SWE-bench-Java上,Java任務的得分大約在~7-10%,而Python在相同基準測試系列上的得分約為75%,顯示出一個數量級的差距。對於工程領導者來說,不穩定的分數意味著不穩定的決策。
這並不意味著代理很弱;這意味著衡量標準過時了。SWE-agent有數千行Python程式碼,但大約100行的mini-SWE-agent(一個簡單的代理迴圈,帶有聊天記憶和單一工具——bash)卻能取得具有競爭力的SWE-Bench結果。事實證明,目前還沒有基準測試來判斷當今和未來現代代理式CLI工具的能力。
早期執行的結果令人鼓舞。在一百多個特定領域標籤上的多標籤問題分類達到或超過了已釋出的F1分數。PR-merge代理已處理了Spring AI程式碼庫上的數百個拉取請求,生成了結構化報告——風險評估、架構說明和回溯分析。這顯著減少了審查時間,同時提高了連貫性。簡單的程式碼覆蓋率基準測試顯示,雖然領先的模型都能達到相同的覆蓋率數字,但在程式碼質量和指令遵循程度上,不同領先模型之間存在差異。
接下來:這兩個專案都在Spring AI社群組織中孵化。快照構建已在Maven Central中提供。我們還在與開發者生產力AI競技場(DPAIA)倡議的領導者合作,該倡議旨在解決我在此提出的問題。
Spring AI社群期待您的反饋,我們將從“代理之年”邁向有效使用代理的新時代。
專案
研究參考文獻
會議演講