Mistral 沉默好久,果然在憋大招。
剛剛發(fā)布最新開(kāi)源編程模型 Devstral,在軟件工程任務(wù)上一舉超過(guò) DeepSeek 全家桶和 Qwen3 235B。
并且參數(shù)只有 24B,可以在單卡 RTX4090 甚至 32G 內(nèi)存的 Mac 上運(yùn)行。
它針對(duì)真實(shí)的 GitHub Issue 訓(xùn)練,重點(diǎn)在大型代碼庫(kù)中代碼的上下文理解、識(shí)別不同組件間的關(guān)系,以及識(shí)別復(fù)雜函數(shù)中的細(xì)微錯(cuò)誤。
在包含 500 個(gè)真實(shí) GitHub Issue 問(wèn)題的 SWE-Bench Verified 基準(zhǔn)測(cè)試中,Devstral 不僅成為開(kāi)源 SOTA,還優(yōu)于許多同等參數(shù)規(guī)模的閉源模型。
這次發(fā)布沒(méi)有配套論文,也沒(méi)有更多詳細(xì)的技術(shù)介紹,那么效果具體如何,只能看實(shí)際測(cè)試了。
最新開(kāi)源代碼模型實(shí)際表現(xiàn)
合作開(kāi)發(fā)方 All Hands AI 聯(lián)創(chuàng)分享了 Devestral 給他帶來(lái)的 " 驚喜時(shí)刻 ":
當(dāng)被要求寫(xiě)一個(gè)待辦事項(xiàng)列表 APP 時(shí),AI 沒(méi)有直接開(kāi)始寫(xiě),而是詢問(wèn)用戶想要使用哪些技術(shù)棧。
合作方 All Hands AI 的口號(hào)是 " 少寫(xiě)代碼,多做事 ",他們沒(méi)有開(kāi)發(fā)自己的基礎(chǔ)膜,而是專注于構(gòu)建智能體框架。
Devstral 可與 All Hands AI 的 OpenHands 或 SWE-Agent 等智能體框架配合使用。
OpenHands 智能體框架可以執(zhí)行人類程序員能做的任何操作,包括修改代碼、運(yùn)行命令、瀏覽網(wǎng)頁(yè)、調(diào)用 API,甚至可以從 StackOverflow 復(fù)制代碼片段。
自去年 4 月推出以來(lái),OpenHands 在 GitHub 上已經(jīng)積攢了 5 萬(wàn) + 標(biāo)星。
[ 1 ] https://mistral.ai/news/devstral
[ 2 ] https://x.com/ngxson/status/1925202510312067494
— 完 —
量子位 AI 主題策劃正在征集中!歡迎參與專題365 行 AI 落地方案,一千零一個(gè) AI 應(yīng)用,或與我們分享你在尋找的 AI 產(chǎn)品,或發(fā)現(xiàn)的AI 新動(dòng)向。
也歡迎你加入量子位每日 AI 交流群,一起來(lái)暢聊 AI 吧~
一鍵關(guān)注 點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見(jiàn)
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!