作者 | 陳駿達(dá)
編輯 | 心緣
智東西 5 月 23 日?qǐng)?bào)道,今天凌晨,美國(guó)大模型獨(dú)角獸 Anthropic 在其首屆開(kāi)發(fā)者大會(huì)上正式發(fā)布了下一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,這也是 Claude 自 2024 年 6 月以來(lái)的首次大版本號(hào)更新。
Anthropic 將 Claude Opus 4 稱之為 " 世界上最好的編程模型 ",能在復(fù)雜、長(zhǎng)時(shí)間運(yùn)行的任務(wù)和智能體工作流中表現(xiàn)出穩(wěn)定的性能。Claude Sonnet 4 是 Claude Sonnet 3.7 的重大升級(jí),以編程和推理能力為核心,同時(shí)能更精確地響應(yīng)用戶提示詞。這兩款模型均為混合模型,提供兩種模式:即時(shí)回復(fù)和用于更深入推理的擴(kuò)展思考(extended thinking)。
在權(quán)威編程基準(zhǔn)測(cè)試 SWE-bench Verified 上,開(kāi)啟擴(kuò)展思考的 Claude Opus 4 與 Claude Sonnet 4 的得分分別為 79.4% 和 80.2%,大幅度超越了 OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro 等模型。
這兩款模型都可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上調(diào)用,定價(jià)與之前的 Opus 和 Sonnet 模型保持一致:Claude Opus 4 為每百萬(wàn)個(gè) token 15 美元 /75 美元(輸入 / 輸出),Claude Sonnet 4 為 3 美元 /15 美元。
一、開(kāi)場(chǎng) 2 分鐘甩出重磅新模型,Claude 未來(lái)更新頻率將加速
在 Code with Claude 開(kāi)發(fā)者大會(huì)上,Anthropic 創(chuàng)始人 Dario Amodei 在開(kāi)場(chǎng) 2 分鐘時(shí)快步走上臺(tái),并未做任何鋪墊,便直接甩出了最大的驚喜—— Claude 4 系列模型的發(fā)布。
Claude Opus 4 在多項(xiàng)基準(zhǔn)測(cè)試上的成績(jī)并未明顯高于 Claude Sonnet 4,甚至略低于后者。Amodei 強(qiáng)調(diào),對(duì)于 Claude Opus 4 這樣的大型模型,基準(zhǔn)測(cè)試并不能完全體現(xiàn)其能力。
在 Anthropic 提供給客戶的預(yù)覽中,Claude Opus 4 可以在 Anthropic 內(nèi)部自主完成一些通常需要人類花費(fèi) 6 到 7 小時(shí)的任務(wù),Anthropic 內(nèi)部一些最資深的工程師都對(duì)其帶來(lái)的生產(chǎn)力提升感到驚訝。
Claude Sonnet 4 在多項(xiàng)編程基準(zhǔn)測(cè)試中的表現(xiàn)與 Claude Opus 4 持平,但前者更為精簡(jiǎn),專注于編程等特定任務(wù)。Claude Sonnet 4 還解決了 Claude Sonnet 3.7 在實(shí)際使用過(guò)程中出現(xiàn)的種種問(wèn)題,包括過(guò)度熱情(傾向于做出超出用戶要求的事情)與獎(jiǎng)勵(lì)機(jī)制問(wèn)題。
Amodei 稱,Anthropic 會(huì)繼續(xù)改進(jìn) Claude 系列模型,定期發(fā)布可能的小版本更新,理想情況下,會(huì)比之前發(fā)布的頻率還要高。
二、智能體能力迎升級(jí),最高可獨(dú)立運(yùn)行 7 小時(shí)
Anthropic 首席產(chǎn)品官、Instagram 聯(lián)合創(chuàng)始人 Mike Krieger 詳細(xì)分享了更多 Claude 4 的相關(guān)情況。
Krieger 稱,Claude Opus 4 擅長(zhǎng)理解代碼庫(kù)并規(guī)劃添加內(nèi)容,從遷移、代碼重構(gòu)到最復(fù)雜的智能體工作流方面都非常高效且準(zhǔn)確。
Claude Sonnet 4 在日常編碼任務(wù)、應(yīng)用程序開(kāi)發(fā)和配對(duì)編程方面表現(xiàn)出色。它也適用于高流量用例,平衡了效率和性能,可以被視為 " 全天候 " 編碼伙伴。
Claude 4 系列模型為打造能使用工具的智能體升級(jí)了關(guān)鍵的新功能?,F(xiàn)在,Claude 4 系列模型可以并行處理多種工具,當(dāng)被授予訪問(wèn)本地文件的權(quán)限時(shí),它們甚至可以在會(huì)話之間保持記憶,隨著時(shí)間的推移積累知識(shí)。
Krieger 回憶,在加入 Anthropic 后不久,他們?cè)鴳{借 Claude 的幫助,僅用 3 人團(tuán)隊(duì)成功完成亞馬遜 Alexa 語(yǔ)音助手原型的打造,Krieger 這位 " 前工程師 " 也重拾代碼親自上陣。這次合作最終使 Claude 成為 Alexa Plus 的核心模型之一。
這段經(jīng)歷讓 Krieger 更堅(jiān)信 AI 協(xié)作的潛力。如今,AI 已不僅是工具,而是真正的智能協(xié)作伙伴,持續(xù)推動(dòng)技術(shù)邊界。Krieger 提出了 Anthropic 認(rèn)為的理想智能體三大核心能力:
(1)情境智能:理解組織背景,通過(guò)經(jīng)驗(yàn)優(yōu)化表現(xiàn),像優(yōu)秀員工一樣越用越好;
(2)長(zhǎng)期執(zhí)行:獨(dú)立處理復(fù)雜任務(wù)數(shù)小時(shí),智能協(xié)調(diào)資源;
(3)深度協(xié)作:自然交互、適應(yīng)工作風(fēng)格,并保持決策透明。
Claude 現(xiàn)在可以通過(guò) Anthropic API 上的新代碼執(zhí)行工具運(yùn)行代碼,而不僅僅是編寫(xiě)代碼,能夠加載數(shù)據(jù)集、清理數(shù)據(jù)、生成探索性圖表,并實(shí)時(shí)分析異常情況。在與 Claude 4 模型結(jié)合后,代碼執(zhí)行工具可以處理復(fù)雜任務(wù),節(jié)省大量時(shí)間。
Claude 4 系列模型的自主性進(jìn)一步提升,Claude 3.7 最多可自主運(yùn)行 45 分鐘,而 Claude 4 可以獨(dú)立運(yùn)行數(shù)小時(shí),最高達(dá)到 7 小時(shí)。新模型通過(guò)管理待辦事項(xiàng)列表保持記憶,不會(huì)丟失線索。
Anthropic 強(qiáng)調(diào),智能體的廣泛采用需要提高模型對(duì)保密內(nèi)容、決策和協(xié)調(diào)的判斷力。如今,Claude 模型的每個(gè)功能都包含架構(gòu)安全檢查點(diǎn)和控制措施,確保模型在生產(chǎn)環(huán)境中的可靠性。
智能體的落地還需要訪問(wèn)現(xiàn)實(shí)世界的信息,并與現(xiàn)有系統(tǒng)的連接,為了幫助智能體進(jìn)一步擴(kuò)展,Anthropic 推出了 4 項(xiàng)相互關(guān)聯(lián)的新功能。
首先,開(kāi)發(fā)者現(xiàn)在可以直接通過(guò) Anthropic API 鏈接 MCP 協(xié)議(模型上下文協(xié)議)。如今,MCP 協(xié)議被微軟、谷歌、OpenAI、Block、Atlassian、Zapier、Linear 等眾多公司采用,Anthropic 認(rèn)為 MCP 有望為智能體經(jīng)濟(jì)奠定基礎(chǔ)。
其次,網(wǎng)絡(luò)搜索為 Claude 提供了對(duì)當(dāng)前信息的實(shí)時(shí)訪問(wèn)。這是一種智能數(shù)據(jù)增強(qiáng),允許 Claude 分析當(dāng)前事件、市場(chǎng)趨勢(shì)和新興技術(shù),與 MCP 功能結(jié)合使用時(shí)也非常強(qiáng)大。
第三,文件 API 今天起在 Anthropic API 中可用。文件 API 允許 Claude 讀取和寫(xiě)入記憶文件,在長(zhǎng)時(shí)間任務(wù)中保持上下文連續(xù)性。Anthropic 配套發(fā)布 " 記憶功能食譜 ",指導(dǎo)開(kāi)發(fā)者如何集成到應(yīng)用中。
最后,提示緩存功能迎來(lái)升級(jí),TTL(生存時(shí)間)從 5 分鐘提升至 1 小時(shí),這最多能將模型的使用成本降低 90%,延遲減少 85%,尤其適用于長(zhǎng)提示詞場(chǎng)景、長(zhǎng)時(shí)間運(yùn)行的智能體工作流和需要頻繁調(diào)用相同上下文的重復(fù)性任務(wù)。
Anthropic 還顯著減少了 Claude 4 模型使用快捷方式或漏洞完成任務(wù)的行為。與 Sonnet 3.7 相比,這種行為的可能性降低了 65%。
Claude Opus 4 在內(nèi)存能力方面的表現(xiàn)也大大優(yōu)于所有以前的型號(hào)。當(dāng)開(kāi)發(fā)人員構(gòu)建提供 Claude 本地文件訪問(wèn)的應(yīng)用程序時(shí),Opus 4 可以熟練地創(chuàng)建和維護(hù) " 內(nèi)存文件 " 來(lái)存儲(chǔ)關(guān)鍵信息。這可以解鎖更好的長(zhǎng)期任務(wù)意識(shí)、連貫性和代理任務(wù)的性能——例如 Opus 4 在玩 Pokémon 時(shí)創(chuàng)建 " 導(dǎo)航指南 "。
三、編程助手全面開(kāi)放,整合至主流開(kāi)發(fā)平臺(tái)
Claude Code 在今天迎來(lái)全面開(kāi)放,從研究預(yù)覽轉(zhuǎn)為正式產(chǎn)品。Claude Code 產(chǎn)品經(jīng)理 Cat Wu 分享說(shuō),除了接入最新模型之外,Claude Code 還推出了多項(xiàng)新功能。
Claude Code 現(xiàn)已與 VS Code 和 JetBrains 等主流 IDE 集成,在使用過(guò)程中,開(kāi)發(fā)者可以直接在編輯器中實(shí)時(shí)查看 Claude Code 建議的代碼改動(dòng)。
通過(guò)這些更新,Claude Code 已經(jīng)能夠覆蓋大部分工作場(chǎng)景,無(wú)論是在終端中進(jìn)行深度開(kāi)發(fā)、在 GitHub 上處理遠(yuǎn)程協(xié)作、通過(guò) SDK 構(gòu)建自動(dòng)化工作流,還是在 IDE 中進(jìn)行代碼審查。
演示環(huán)節(jié)中,Claude Code 迅速完成了開(kāi)源工具 Excalidraw 的表格組件功能開(kāi)發(fā)。Claude Code 會(huì)創(chuàng)建任務(wù)清單,探索代碼庫(kù)并生成代碼,運(yùn)行測(cè)試并提交 Pull Request。它還能通過(guò) GitHub Actions 自動(dòng)更新文檔。短短 10 分鐘,Claude Code 完成了通常需要數(shù)小時(shí)的復(fù)雜任務(wù),極大地提升了開(kāi)發(fā)效率。
結(jié)語(yǔ):兩條 Scaling Law 路徑持續(xù)有效,未來(lái) 1 年將見(jiàn)證編程革命
Amodei 稱,Claude Sonnet 3.7 發(fā)布僅兩個(gè)半月,卻感覺(jué)像過(guò)了一年,這足見(jiàn) AI 領(lǐng)域的發(fā)展之快。他強(qiáng)調(diào),Claude 4 的模型能力來(lái)自預(yù)訓(xùn)練和后訓(xùn)練的共同進(jìn)步,預(yù)訓(xùn)練 Scaling Law 依然有效,后訓(xùn)練技術(shù)也在同步發(fā)展,二者相輔相成。
展望未來(lái) AI 領(lǐng)域的發(fā)展,Amodei 認(rèn)為我們會(huì)在未來(lái)一年見(jiàn)證編程領(lǐng)域的革命,從 Claude Code 出發(fā),我們將進(jìn)入 " 智能體艦隊(duì) " 時(shí)代,成批的智能體會(huì)將軟件開(kāi)發(fā)自動(dòng)化,定制化軟件的成本顯著降低,這將重塑開(kāi)發(fā)者、企業(yè)和初創(chuàng)公司的角色。