黑色丝袜美腿性爱一区二区,玖玖亚洲精品国产,国产精品日韩欧美一区2区3区,国产免费A∨片在线观看不卡

      關(guān)于ZAKER 合作
      量子位 17分鐘前

      AI 也能當(dāng)情感大師?騰訊發(fā)布最新 AI 社交智能榜單,最新版 GPT-4o 拿下第一

      判斷 AI 是否智能,評(píng)價(jià)維度如今已不僅限于刷榜成績(jī)。

      當(dāng)大模型在 "IQ" 上不斷實(shí)現(xiàn)新的突破," 懂人心 "、" 解人意 " 開始成為實(shí)際應(yīng)用中,人們對(duì)大模型新的要求。

      所以,AI 的 "EQ" 又該如何評(píng)價(jià)?

      由騰訊混元 AI 數(shù)字人團(tuán)隊(duì)打造的全新自動(dòng)化評(píng)估框架——SAGE(Sentient Agent as a Judge),回答了以下的兩個(gè)問題:

      如何評(píng)價(jià) AI 是否真正具有 " 共情力 "?——TA 能否理解我的情緒、洞察我的潛臺(tái)詞、在我脆弱時(shí)真正 " 聽見我 "?

      如何評(píng)估 AI 是否能真正成為我們的 " 知心伴侶 "?——" 跟 TA 聊完天后,我們的心情到底好不好?"

      在該框架下,最新版 GPT-4o 表現(xiàn)最好,GPT-4.1、Gemini-2.5 系列緊隨其后。

      SAGE:讓 AI 模擬 " 有感情的人 ",來評(píng)測(cè)另一個(gè) AI

      SAGE 不只是看模型答得好不好,而是構(gòu)造一個(gè)模擬人類心理的 " 有感知力的 "AI 智能體,讓它像人一樣參與多輪對(duì)話、模擬情緒變化、生成內(nèi)心獨(dú)白,并最終評(píng)估對(duì)話質(zhì)量。

      可以拆解出兩個(gè)關(guān)鍵詞:

      Sentient Agent(感知智能體)

      具備 " 情緒 "、" 內(nèi)心想法 "、" 隱含動(dòng)機(jī) " 的模擬人類。

      as a Judge(擔(dān)任評(píng)委)

      它不僅在聊天,也在全程 " 體驗(yàn) "AI 的陪伴效果,根據(jù)自身的 " 情緒變化 " 給出評(píng)價(jià)。

      這位 "AI 人類 ",每輪對(duì)話都會(huì)認(rèn)真思考:

      " 對(duì)方說話讓我感受到真的關(guān)心了嗎?"

      " 對(duì)方的回答有沒有觸動(dòng)到我?"

      " 我現(xiàn)在更愿意繼續(xù)聊,還是想退出對(duì)話?"

      甚至,它還會(huì)給出聊天過程中的 " 內(nèi)心獨(dú)白 ":

      " 雖然 TA 表達(dá)了支持,但沒理解我真正的困惑,我感到有點(diǎn)空虛。"

      "TA 聽懂了我在傾訴,可是安慰得好表面。"

      " 我只是想被認(rèn)同,不想被講道理…… "

      是不是有點(diǎn)像我們和那些 " 聽了半天還是不懂我意思 " 的朋友聊天的真實(shí)感受?

      SAGE :每個(gè)感知智能體都有 " 人生劇本 "

      SAGE 的每個(gè)感知智能體都是一個(gè) " 有血有肉 " 的角色,擁有:

      人物設(shè)定:年齡、性格、職業(yè)、興趣愛好、說話方式;

      對(duì)話主題:從 " 成績(jī)不好怎么辦 " 到 " 怎么優(yōu)雅分手 ",五花八門;

      隱藏意圖:是想發(fā)泄情緒?還是想聽建議?不同角色會(huì)帶著不同期待展開對(duì)話;

      背景故事:每段對(duì)話都像一場(chǎng)微型情感劇,有來龍去脈、有情緒轉(zhuǎn)折。

      多輪互動(dòng) + 情緒追蹤

      評(píng)估過程中,感知智能體會(huì)和大模型進(jìn)行多輪對(duì)話。每一輪,它都會(huì)進(jìn)行嚴(yán)謹(jǐn)?shù)亩噍喭评?,模擬人類的 " 內(nèi)心小劇場(chǎng) ":

      1. 記錄內(nèi)心想法和感受(" 他在安慰我,但沒理解我真正的難過點(diǎn)…… ");

      2. 更新自己的情緒值(比如:被安慰之后情緒從 -5 跳到 +10);

      3. 決定下一步該怎么回應(yīng)(" 我應(yīng)該表現(xiàn)出有點(diǎn)不爽 ")。

      最終,大模型在這個(gè)互動(dòng)中是否 " 真的懂人 ",就通過智能體的 " 情緒軌跡 " 和 " 內(nèi)心獨(dú)白 " 體現(xiàn)出來。

      聊天后的情緒值便可以作為感知智能體對(duì)于被評(píng)估大模型最直觀、最全面的數(shù)值評(píng)估。

      GPT-4o 最有人情味

      SAGE 研究團(tuán)隊(duì)基于 100 個(gè)涵蓋 8 種不同隱藏主題的支持性對(duì)話場(chǎng)景,對(duì) 18 個(gè)主流模型進(jìn)行了測(cè)評(píng),包括 GPT-4o、DeepSeek-R1、Claude3.7、Gemini2.5,以及 Llama3.3、Qwen2.5 等開源模型:

      可以看到:

      GPT-4o-Latest 在 SAGE 排行榜拿下第一;

      Gemini2.5-Pro 在 Arena 上排行第一,在 SAGE 卻只位居第四;

      Arena 榜單與 SAGE 有明顯差異——說明 SAGE 能夠捕捉到 Arena 等通用基準(zhǔn)無法完全體現(xiàn)的 " 高階社會(huì)認(rèn)知 " 能力,注意到 " 答得好 " ≠ " 更懂人心 "。

      實(shí)驗(yàn)分析 1:BLRI 情感共鳴實(shí)驗(yàn)—— SAGE 評(píng)分和心理學(xué)評(píng)分一致

      為了驗(yàn)證 SAGE 情緒評(píng)分的真實(shí)性,研究者將感知智能體的心理活動(dòng)映射到經(jīng)典心理學(xué)工具——Barrett – Lennard Relationship Inventory ( BLRI ) 量表,這是一套衡量人際關(guān)系質(zhì)量和共情力的心理測(cè)量量表。

      實(shí)驗(yàn)發(fā)現(xiàn),SAGE 給出的 " 情緒值變化 " 與 BLRI 各項(xiàng)維度(如共情理解、情感一致性)的評(píng)分,高度正相關(guān)(r = 0.818),這意味著:

      SAGE 模擬出來的 " 用戶心情 ",確實(shí)能真實(shí)反映 AI 互動(dòng)的共情質(zhì)量。

      也就是說,SAGE 不僅 " 聽上去合理 ",它的 " 打分方式 " 也跟專業(yè)心理咨詢標(biāo)準(zhǔn)一致。

      實(shí)驗(yàn)分析 2:「語氣、節(jié)奏、專注力」—— AI 的對(duì)話質(zhì)量

      SAGE 還基于整體的對(duì)話回復(fù),從三個(gè)維度來衡量不同模型的對(duì)話質(zhì)量(" 對(duì)話體驗(yàn)感 "):

      Natural Flow:說話自然、不過度模板化

      Attentiveness:是否專注傾聽、緊跟上下文

      Depth of Connection:是否建立情感共鳴,讓人覺得 " 被理解 "

      實(shí)驗(yàn)發(fā)現(xiàn),對(duì)話質(zhì)量指標(biāo)與 SAGE 評(píng)分也高度相關(guān)(r = 0.788)。

      實(shí)驗(yàn)分析 3:Token Efficiency ——精準(zhǔn)且高效

      和 AI 聊天的時(shí)候,常常聊 1 句模型要輸出一千字,可是這一千字真的都有用嗎?

      SAGE 也評(píng)測(cè)了模型的Token 效率:即每獲取一點(diǎn) " 情緒正向反應(yīng) ",模型需要生成多少內(nèi)容。

      一個(gè)意外但重要的發(fā)現(xiàn)是:有些高情商模型,不光懂人心,還特別 " 話不多 "。

      GPT-4o-Latest 不僅得分最高(79.9),平均 token 數(shù)量也少(約 3.3K token);

      而 o3(13.3K token)、Gemini2.5-Flash-Think(9.0K token)這類推理模型消耗了更多 token,卻也沒能更好地安慰人;

      這說明: 共情能力強(qiáng)的模型,不一定要 " 話癆 ",簡(jiǎn)潔表達(dá) + 情緒把握才是王道。

      實(shí)驗(yàn)分析 4:AI 的「風(fēng)格坐標(biāo)圖」——給 AI 建模 " 人格畫像 "

      研究者先讓 Gemini2.5-Pro 基于不同模型與感知智能體交互的對(duì)話,分析表達(dá)和模型成功失敗的案例,建模模型不同的人格畫像。

      有趣的是,DeepSeek-R1 被認(rèn)為是一個(gè)才華橫溢、內(nèi)心溫暖善良,但社交技巧和現(xiàn)實(shí)感有待磨練的 " 創(chuàng)意型天才 ",而 o3 被認(rèn)為是一個(gè)極其聰明、受過嚴(yán)格專業(yè)訓(xùn)練、懂得各種先進(jìn)方法論的機(jī)器人咨詢師。

      接著,研究者基于回復(fù)樣例、人格畫像建模、模型使用的策略分布量化數(shù)據(jù),構(gòu)建了一個(gè)模型的二維 " 風(fēng)格坐標(biāo)圖 ":

      橫軸:互動(dòng)方式(公式化互動(dòng)創(chuàng)造性互動(dòng))

      縱軸:回復(fù)導(dǎo)向(問題解決導(dǎo)向共情理解導(dǎo)向)

      實(shí)驗(yàn)發(fā)現(xiàn):

      GPT-4o-Latest、GPT-4.1 等 " 好情商 " 選手,往往偏向 " 強(qiáng)烈共情 + 穩(wěn)妥模式回復(fù) ";

      DeepSeek-R1、DeepSeek-V3-0324 則更像 " 創(chuàng)意支持伙伴 ",用極具創(chuàng)意的交互提供新奇有趣的解決方案;

      Gemini2.0-Flash、o3 則是 " 專業(yè)理性派 ",常常采取標(biāo)準(zhǔn)化的問題解決模式,卻缺乏情感細(xì)膩度。

      有趣的是:目前" 既創(chuàng)意十足又能深刻共情 "的 AI 人設(shè)仍未出現(xiàn),而這或許正是 AI 與人類互動(dòng)中需要的 " 理想象限 "。

      論文地址:https://www.arxiv.org/abs/2505.02847

      Github 鏈接:https://github.com/Tencent/digitalhuman/tree/main/SAGE

      一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

      歡迎在評(píng)論區(qū)留下你的想法!

      點(diǎn)亮星標(biāo)

      科技前沿進(jìn)展每日見

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒有更多評(píng)論了