黑色丝袜美腿性爱一区二区,玖玖亚洲精品国产,国产精品日韩欧美一区2区3区,国产免费A∨片在线观看不卡

      關(guān)于ZAKER 合作
      智東西 06-10

      小紅書開源首個(gè)大模型,中文評(píng)測(cè)超越 DeepSeek-V3

      智東西

      作者 | 李水青

      編輯 | 云鵬

      智東西 6 月 10 日?qǐng)?bào)道,近日,大模型開源圈迎來重磅跨界新玩家——小紅書開源了首個(gè)大模型 dots.llm1。

      dots.llm1 是一個(gè) 1420 億參數(shù)的 MoE(混合專家)模型,僅激活 140 億參數(shù),可在中英文、數(shù)學(xué)、對(duì)齊等任務(wù)上實(shí)現(xiàn)與阿里 Qwen3-32B 接近的性能。在中文表現(xiàn)上,dots.llm1 最終性能在 C-Eval 上達(dá)到 92.2 分,超過了包括 DeepSeek-V3 在內(nèi)的所有模型。

      小紅書開源大模型的一大特色在于數(shù)據(jù)。dots.llm1.ins 在預(yù)訓(xùn)練階段使用了 11.2 萬億的非合成數(shù)據(jù)。作為最新估值直飆 2500 億元的國民級(jí)社交內(nèi)容平臺(tái),小紅書試圖證明的是:通過高效的設(shè)計(jì)和高質(zhì)量的數(shù)據(jù),可以擴(kuò)展大型語言模型的能力邊界。

      根據(jù)小紅書 hi lab 團(tuán)隊(duì)(Humane Intelligence Lab,人文智能實(shí)驗(yàn)室)公布的技術(shù)報(bào)告,其主要貢獻(xiàn)總結(jié)如下:

      1、增強(qiáng)的數(shù)據(jù)處理:團(tuán)隊(duì)提出了一個(gè)可擴(kuò)展且細(xì)粒度的三階段數(shù)據(jù)處理框架,旨在生成大規(guī)模、高質(zhì)量和多樣化的數(shù)據(jù),以進(jìn)行預(yù)訓(xùn)練。完整的過程是開源的,以此增強(qiáng)可復(fù)現(xiàn)性。

      2、性能和成本效益:團(tuán)隊(duì)推出了 dots.llm1 開源模型,在推理過程中僅激活 14B 參數(shù),同時(shí)提供全面且計(jì)算高效的性能。dots.llm1 使用團(tuán)隊(duì)的可擴(kuò)展數(shù)據(jù)處理框架生成的 11.2 萬億個(gè)高質(zhì)量 tokens 進(jìn)行訓(xùn)練,在各種任務(wù)中展示了強(qiáng)大的性能,所有這些都無需依賴合成數(shù)據(jù)或模型蒸餾即可實(shí)現(xiàn)。

      3、基礎(chǔ)設(shè)施:團(tuán)隊(duì)引入了一種基于 1F1B 通道調(diào)度和高效的分組 GEMM 實(shí)現(xiàn)的創(chuàng)新 MoE 全對(duì)多通信和計(jì)算重疊配方,以提高計(jì)算效率。

      4、模型動(dòng)力學(xué)的開放可訪問性:通過以開源形式發(fā)布中間訓(xùn)練檢查點(diǎn),團(tuán)隊(duì)的目標(biāo)是使研究界能夠透明地了解訓(xùn)練過程,從而更深入地了解大型模型的動(dòng)力學(xué),并促進(jìn) LLM 領(lǐng)域的加速創(chuàng)新。

      Hugging Face 地址:

      https://huggingface.co/rednote-hilab

      GitHub 地址:

      https://github.com/rednote-hilab/dots.llm1

      一、性能打平 Qwen2.5-72B,僅需激活 14B 參數(shù)

      首先看下 dots.llm1 的模型效果,團(tuán)隊(duì)訓(xùn)練得到的 dots.llm1 base 模型和 instruct 模型,均在綜合指標(biāo)上打平 Qwen2.5-72B 模型。

      根據(jù)評(píng)估結(jié)果,dots.llm1.inst 在中英文通用任務(wù)、數(shù)學(xué)推理、代碼生成和對(duì)齊基準(zhǔn)測(cè)試中表現(xiàn)較好,僅激活了 14B 參數(shù),與 Qwen2.5-32B-Instruct 和 Qwen2.5-72B-Struct 相比效果更好。在雙語任務(wù)、數(shù)學(xué)推理和對(duì)齊能力方面,dots.llm1.inst 取得了與 Qwen3-32B 相當(dāng)或更好的性能。

      具體來看,在英語表現(xiàn)上,dots.llm1.inst 在 MMLU、MMLU-Redux、DROP 和 GPQA 等問答任務(wù)中,與 Qwen2.5/Qwen3 系列模型相比具有競(jìng)爭(zhēng)力。

      在代碼性能上,該模型與 Qwen2.5 系列相比不相上下,但與 Qwen3 和 DeepSeek-V3 等更先進(jìn)的模型相比仍有差距。

      在數(shù)學(xué)表現(xiàn)上,dots.llm1.inst 在 AIME24 上獲得了 33.1 分,凸顯了其在復(fù)雜數(shù)學(xué)方面的高級(jí)問題解決能力;在 MATH500 的得分為 84.8,優(yōu)于 Qwen2.5 系列,并接近最先進(jìn)的結(jié)果。

      在中文表現(xiàn)上,dots.llm1.inst 在 CLUEWSC 上獲得了 92.6 分,與行業(yè)領(lǐng)先的中文語義理解性能相匹配。在 C-Eval 上,它達(dá)到了 92.2,超過了包括 DeepSeek-V3 在內(nèi)的所有模型。

      對(duì)齊性能方面,dots.llm1.inst 在 IFEval、AlpacaEval2 和 ArenaHard 等基準(zhǔn)測(cè)試中表現(xiàn)出有競(jìng)爭(zhēng)力的性能。這些結(jié)果表明,該模型可以準(zhǔn)確地解釋和執(zhí)行復(fù)雜的指令,同時(shí)保持與人類意圖和價(jià)值觀的一致性。

      二、采取 MoE 架構(gòu),11.2 萬億非合成數(shù)據(jù)訓(xùn)練

      dots.llm1 模型是一種僅限解碼器的 Transformer 架構(gòu),其中每一層由一個(gè)注意力層和一個(gè)前饋網(wǎng)絡(luò)(FFN)組成。與 Llama 或 Qwen 等密集模型不同,F(xiàn)FN 被專家混合(MoE)替代了。這種修改允許其在保持經(jīng)濟(jì)成本的同時(shí)訓(xùn)練功能強(qiáng)大的模型。

      在注意力層方面,團(tuán)隊(duì)在模型中使用了一種普通的多頭注意力機(jī)制。在 MoE 層,團(tuán)隊(duì)遵循 DeepSeek、Qwen 的做法,用包含共享和獨(dú)立專家的 MoE 層替換了 FFN,他們的實(shí)施包括為所有 token 激活 128 個(gè)路由專家和 2 個(gè)共享專家,每個(gè)專家都使用 SwiGLU 激活實(shí)現(xiàn)為細(xì)粒度的兩層 FFN。負(fù)載均衡方面,為了降低訓(xùn)練和推理期間的模型容量和計(jì)算效率,團(tuán)隊(duì)采用了一種與 DeepSeek 類似的輔助無損的方法;此外,團(tuán)隊(duì)還采用序列平衡損失,以防止任何單個(gè)序列中的極端不平衡,以此使 dots.llm1 在整個(gè)訓(xùn)練過程中保持良好的負(fù)載均衡。

      預(yù)訓(xùn)練數(shù)據(jù)方面,dots.llm1.ins 在預(yù)訓(xùn)練階段使用了 11.2 萬億 tokens 的非合成數(shù)據(jù),主要來自通用爬蟲和自有爬蟲抓取得到的 Web 數(shù)據(jù)。

      在數(shù)據(jù)處理上,團(tuán)隊(duì)主要進(jìn)行了文檔準(zhǔn)備、基于規(guī)則的處理和基于模型的處理。其中文檔準(zhǔn)備側(cè)重于預(yù)處理和組織原始數(shù)據(jù);基于規(guī)則的處理旨在通過自動(dòng)篩選和清理數(shù)據(jù),最大限度地減少對(duì)大量人工管理的需求;基于模型的處理進(jìn)一步確保最終數(shù)據(jù)集既高質(zhì)量又多樣化。

      其數(shù)據(jù)處理管道有兩項(xiàng)關(guān)鍵創(chuàng)新,如下所示:

      1、Web 雜亂清除模型:為了解決樣板內(nèi)容和重復(fù)行等問題,團(tuán)隊(duì)開發(fā)了一種在生產(chǎn)線級(jí)別運(yùn)行的輕量級(jí)模型。這種方法在清潔質(zhì)量和計(jì)算效率之間實(shí)現(xiàn)了有效的平衡,代表了開源數(shù)據(jù)集中不常見的獨(dú)特功能。

      2、類別平衡:團(tuán)隊(duì)訓(xùn)練一個(gè) 200 類分類器來平衡 Web 數(shù)據(jù)中的比例。這使其能夠增加基于知識(shí)和事實(shí)的內(nèi)容(例如百科全書條目和科普文章)的存在,同時(shí)減少虛構(gòu)和高度結(jié)構(gòu)化的 Web 內(nèi)容(包括科幻小說和產(chǎn)品描述)的份額。

      經(jīng)過上述處理流程,團(tuán)隊(duì)得到一份高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù),并經(jīng)過人工校驗(yàn)和實(shí)驗(yàn)驗(yàn)證,證明該數(shù)據(jù)質(zhì)量顯著優(yōu)于開源 Txt360 數(shù)據(jù)。

      三、模型包含 62 層,序列長度擴(kuò)展到 32k

      在參數(shù)方面,dots.llm1 模型使用 AdamW 優(yōu)化器進(jìn)行訓(xùn)練,模型包含 62 層,第一層使用普通密集 FFN,后續(xù)層使用 MoE。

      團(tuán)隊(duì)在預(yù)訓(xùn)練期間將最大序列長度設(shè)置為 8k,并在 11.2T tokens 上訓(xùn)練 dots.llm1。在主要訓(xùn)練階段之后,該過程包括兩個(gè)退火階段,總共包含 1.2 萬億個(gè)數(shù)據(jù) tokens。

      緊接著,團(tuán)隊(duì)在退火階段之后實(shí)現(xiàn)上下文長度擴(kuò)展。在這個(gè)階段,他們?cè)谑褂?UtK 策略對(duì) 128B 標(biāo)記進(jìn)行訓(xùn)練時(shí)保持恒定的學(xué)習(xí)率,將序列長度擴(kuò)展到 32k。UtK 不是修改數(shù)據(jù)集,而是嘗試將訓(xùn)練文檔分塊成更小的片段,然后訓(xùn)練模型以從隨機(jī)分塊中重建相關(guān)片段。通過學(xué)習(xí)解開這些打結(jié)的塊,該模型可以有效地處理較長的輸入序列,同時(shí)保持其在短上下文任務(wù)上的性能。

      在預(yù)訓(xùn)練完成后,為了全面評(píng)估 dots.llm1 模型,團(tuán)隊(duì)將該模型在中文和英文上進(jìn)行了預(yù)訓(xùn)練,團(tuán)隊(duì)評(píng)估了它在每種語言中跨越多個(gè)領(lǐng)域的一套基準(zhǔn)測(cè)試中的性能。如下圖所示,與 DeepSeek-V2 相比,只有 14B 激活參數(shù)的 dots.llm1 性能更佳,后者與 Qwen2.5-72B 水平相當(dāng)。

      dots.llm1 在大多數(shù)域中表現(xiàn)出與 Qwen2.5-72B 相當(dāng)?shù)男阅埽?、在語言理解任務(wù)上,dots.llm1 在中文理解基準(zhǔn)測(cè)試中取得了較高性能,主要得益于數(shù)據(jù)處理管道。2、在知識(shí)任務(wù)中,雖然 dots.llm1 在英語知識(shí)基準(zhǔn)上的得分略低,但它在中文知識(shí)任務(wù)上的表現(xiàn)仍然穩(wěn)健。3、在代碼和數(shù)學(xué)領(lǐng)域,dots.llm1 在 HumanEval 和 CMath 上獲得了更高的分?jǐn)?shù)。有趣的是,在數(shù)學(xué)方面,我們觀察到 dots.llm1 在零樣本設(shè)置下的性能比少數(shù)樣本設(shè)置要好,提高了 4 個(gè)百分點(diǎn)以上。

      以下?lián)p失曲線突出了訓(xùn)練過程的一致穩(wěn)定性。在 6 萬億個(gè)訓(xùn)練 token 中,團(tuán)隊(duì)將批處理大小從 6400 萬個(gè)調(diào)整為 9600 萬個(gè),從 8.3 萬億次增加到 1.28 億次。在整個(gè)訓(xùn)練期間,沒有出現(xiàn)無法恢復(fù)的損失峰值事件,也不需要回滾。

      在預(yù)訓(xùn)練及評(píng)估后,團(tuán)隊(duì)在后訓(xùn)練階段對(duì)模型進(jìn)行了監(jiān)督微調(diào)。

      在數(shù)據(jù)混合方面,其基于開源數(shù)據(jù)和內(nèi)部注釋數(shù)據(jù)收集了大約 400k 個(gè)指令調(diào)優(yōu)實(shí)例,主要集中在幾個(gè)關(guān)鍵領(lǐng)域:多語言(主要是中文和英文)多輪對(duì)話、知識(shí)理解和問答、復(fù)雜的指令跟隨以及涉及數(shù)學(xué)和編碼的推理任務(wù)。

      在微調(diào)配置方面,dots.llm1.inst 的微調(diào)過程包括兩個(gè)階段。在第一階段,團(tuán)隊(duì)對(duì) 400k 指令調(diào)優(yōu)實(shí)例執(zhí)行上采樣和多會(huì)話連接,然后對(duì) dots.llm1.inst 進(jìn)行 2 個(gè) epoch 的微調(diào)。在第二階段,其通過拒絕采樣微調(diào)(RFT)進(jìn)一步增強(qiáng)模型在特定領(lǐng)域(如數(shù)學(xué)和編碼)的能力,并結(jié)合驗(yàn)證器系統(tǒng)來提高這些專業(yè)領(lǐng)域的性能。

      結(jié)語:用高質(zhì)量數(shù)據(jù)擴(kuò)展大模型邊界

      可以看到,dots.llm1 定位是一種經(jīng)濟(jì)高效的專家混合模型," 以小博大 "。通過僅激活每個(gè)標(biāo)記的參數(shù)子集,dots.llm1 降低訓(xùn)練成本,試圖提供了與更大的模型相當(dāng)?shù)慕Y(jié)果。

      相比于同行,小紅書認(rèn)為自己的一大優(yōu)勢(shì)是數(shù)據(jù)處理管道,可助其生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。Dots.llm1 證明了高效的設(shè)計(jì)和高質(zhì)量的數(shù)據(jù)可以不斷擴(kuò)展大型語言模型的能力邊界。

      相關(guān)標(biāo)簽