黑色丝袜美腿性爱一区二区,玖玖亚洲精品国产,国产精品日韩欧美一区2区3区,国产免费A∨片在线观看不卡

量子位 17分鐘前

AI 也能當(dāng)情感大師？騰訊發(fā)布最新 AI 社交智能榜單，最新版 GPT-4o 拿下第一

判斷 AI 是否智能，評(píng)價(jià)維度如今已不僅限于刷榜成績(jī)。

當(dāng)大模型在 "IQ" 上不斷實(shí)現(xiàn)新的突破，" 懂人心 "、" 解人意 " 開始成為實(shí)際應(yīng)用中，人們對(duì)大模型新的要求。

所以，AI 的 "EQ" 又該如何評(píng)價(jià)？

由騰訊混元 AI 數(shù)字人團(tuán)隊(duì)打造的全新自動(dòng)化評(píng)估框架——SAGE（Sentient Agent as a Judge），回答了以下的兩個(gè)問題：

如何評(píng)價(jià) AI 是否真正具有 " 共情力 "？——TA 能否理解我的情緒、洞察我的潛臺(tái)詞、在我脆弱時(shí)真正 " 聽見我 "？

如何評(píng)估 AI 是否能真正成為我們的 " 知心伴侶 "？——" 跟 TA 聊完天后，我們的心情到底好不好？"

在該框架下，最新版 GPT-4o 表現(xiàn)最好，GPT-4.1、Gemini-2.5 系列緊隨其后。

SAGE：讓 AI 模擬 " 有感情的人 "，來評(píng)測(cè)另一個(gè) AI

SAGE 不只是看模型答得好不好，而是構(gòu)造一個(gè)模擬人類心理的 " 有感知力的 "AI 智能體，讓它像人一樣參與多輪對(duì)話、模擬情緒變化、生成內(nèi)心獨(dú)白，并最終評(píng)估對(duì)話質(zhì)量。

可以拆解出兩個(gè)關(guān)鍵詞：

Sentient Agent（感知智能體）

具備 " 情緒 "、" 內(nèi)心想法 "、" 隱含動(dòng)機(jī) " 的模擬人類。

as a Judge（擔(dān)任評(píng)委）

它不僅在聊天，也在全程 " 體驗(yàn) "AI 的陪伴效果，根據(jù)自身的 " 情緒變化 " 給出評(píng)價(jià)。

這位 "AI 人類 "，每輪對(duì)話都會(huì)認(rèn)真思考：

" 對(duì)方說話讓我感受到真的關(guān)心了嗎？"

" 對(duì)方的回答有沒有觸動(dòng)到我？"

" 我現(xiàn)在更愿意繼續(xù)聊，還是想退出對(duì)話？"

甚至，它還會(huì)給出聊天過程中的 " 內(nèi)心獨(dú)白 "：

" 雖然 TA 表達(dá)了支持，但沒理解我真正的困惑，我感到有點(diǎn)空虛。"

"TA 聽懂了我在傾訴，可是安慰得好表面。"

" 我只是想被認(rèn)同，不想被講道理…… "

是不是有點(diǎn)像我們和那些 " 聽了半天還是不懂我意思 " 的朋友聊天的真實(shí)感受？

SAGE ：每個(gè)感知智能體都有 " 人生劇本 "

SAGE 的每個(gè)感知智能體都是一個(gè) " 有血有肉 " 的角色，擁有：

人物設(shè)定：年齡、性格、職業(yè)、興趣愛好、說話方式；

對(duì)話主題：從 " 成績(jī)不好怎么辦 " 到 " 怎么優(yōu)雅分手 "，五花八門；

隱藏意圖：是想發(fā)泄情緒？還是想聽建議？不同角色會(huì)帶著不同期待展開對(duì)話；

背景故事：每段對(duì)話都像一場(chǎng)微型情感劇，有來龍去脈、有情緒轉(zhuǎn)折。

多輪互動(dòng) + 情緒追蹤

評(píng)估過程中，感知智能體會(huì)和大模型進(jìn)行多輪對(duì)話。每一輪，它都會(huì)進(jìn)行嚴(yán)謹(jǐn)?shù)亩噍喭评?，模擬人類的 " 內(nèi)心小劇場(chǎng) "：

1. 記錄內(nèi)心想法和感受（" 他在安慰我，但沒理解我真正的難過點(diǎn)…… "）；

2. 更新自己的情緒值（比如：被安慰之后情緒從 -5 跳到 +10）；

3. 決定下一步該怎么回應(yīng)（" 我應(yīng)該表現(xiàn)出有點(diǎn)不爽 "）。

最終，大模型在這個(gè)互動(dòng)中是否 " 真的懂人 "，就通過智能體的 " 情緒軌跡 " 和 " 內(nèi)心獨(dú)白 " 體現(xiàn)出來。

而聊天后的情緒值便可以作為感知智能體對(duì)于被評(píng)估大模型最直觀、最全面的數(shù)值評(píng)估。

GPT-4o 最有人情味

SAGE 研究團(tuán)隊(duì)基于 100 個(gè)涵蓋 8 種不同隱藏主題的支持性對(duì)話場(chǎng)景，對(duì) 18 個(gè)主流模型進(jìn)行了測(cè)評(píng)，包括 GPT-4o、DeepSeek-R1、Claude3.7、Gemini2.5，以及 Llama3.3、Qwen2.5 等開源模型：

可以看到：

GPT-4o-Latest 在 SAGE 排行榜拿下第一；

Gemini2.5-Pro 在 Arena 上排行第一，在 SAGE 卻只位居第四；

Arena 榜單與 SAGE 有明顯差異——說明 SAGE 能夠捕捉到 Arena 等通用基準(zhǔn)無法完全體現(xiàn)的 " 高階社會(huì)認(rèn)知 " 能力，注意到 " 答得好 " ≠ " 更懂人心 "。

實(shí)驗(yàn)分析 1：BLRI 情感共鳴實(shí)驗(yàn)—— SAGE 評(píng)分和心理學(xué)評(píng)分一致

為了驗(yàn)證 SAGE 情緒評(píng)分的真實(shí)性，研究者將感知智能體的心理活動(dòng)映射到經(jīng)典心理學(xué)工具——Barrett – Lennard Relationship Inventory ( BLRI ) 量表，這是一套衡量人際關(guān)系質(zhì)量和共情力的心理測(cè)量量表。

實(shí)驗(yàn)發(fā)現(xiàn)，SAGE 給出的 " 情緒值變化 " 與 BLRI 各項(xiàng)維度（如共情理解、情感一致性）的評(píng)分，高度正相關(guān)（r = 0.818），這意味著：

SAGE 模擬出來的 " 用戶心情 "，確實(shí)能真實(shí)反映 AI 互動(dòng)的共情質(zhì)量。

也就是說，SAGE 不僅 " 聽上去合理 "，它的 " 打分方式 " 也跟專業(yè)心理咨詢標(biāo)準(zhǔn)一致。

實(shí)驗(yàn)分析 2：「語氣、節(jié)奏、專注力」—— AI 的對(duì)話質(zhì)量

SAGE 還基于整體的對(duì)話回復(fù)，從三個(gè)維度來衡量不同模型的對(duì)話質(zhì)量（" 對(duì)話體驗(yàn)感 "）：

Natural Flow：說話自然、不過度模板化

Attentiveness：是否專注傾聽、緊跟上下文

Depth of Connection：是否建立情感共鳴，讓人覺得 " 被理解 "

實(shí)驗(yàn)發(fā)現(xiàn)，對(duì)話質(zhì)量指標(biāo)與 SAGE 評(píng)分也高度相關(guān)（r = 0.788）。

實(shí)驗(yàn)分析 3：Token Efficiency ——精準(zhǔn)且高效

和 AI 聊天的時(shí)候，常常聊 1 句模型要輸出一千字，可是這一千字真的都有用嗎？

SAGE 也評(píng)測(cè)了模型的Token 效率：即每獲取一點(diǎn) " 情緒正向反應(yīng) "，模型需要生成多少內(nèi)容。

一個(gè)意外但重要的發(fā)現(xiàn)是：有些高情商模型，不光懂人心，還特別 " 話不多 "。

GPT-4o-Latest 不僅得分最高（79.9），平均 token 數(shù)量也少（約 3.3K token）；

而 o3（13.3K token）、Gemini2.5-Flash-Think（9.0K token）這類推理模型消耗了更多 token，卻也沒能更好地安慰人；

這說明：共情能力強(qiáng)的模型，不一定要 " 話癆 "，簡(jiǎn)潔表達(dá) + 情緒把握才是王道。

實(shí)驗(yàn)分析 4：AI 的「風(fēng)格坐標(biāo)圖」——給 AI 建模 " 人格畫像 "

研究者先讓 Gemini2.5-Pro 基于不同模型與感知智能體交互的對(duì)話，分析表達(dá)和模型成功失敗的案例，建模模型不同的人格畫像。

有趣的是，DeepSeek-R1 被認(rèn)為是一個(gè)才華橫溢、內(nèi)心溫暖善良，但社交技巧和現(xiàn)實(shí)感有待磨練的 " 創(chuàng)意型天才 "，而 o3 被認(rèn)為是一個(gè)極其聰明、受過嚴(yán)格專業(yè)訓(xùn)練、懂得各種先進(jìn)方法論的機(jī)器人咨詢師。

接著，研究者基于回復(fù)樣例、人格畫像建模、模型使用的策略分布量化數(shù)據(jù)，構(gòu)建了一個(gè)模型的二維 " 風(fēng)格坐標(biāo)圖 "：

橫軸：互動(dòng)方式（公式化互動(dòng)創(chuàng)造性互動(dòng)）

縱軸：回復(fù)導(dǎo)向（問題解決導(dǎo)向共情理解導(dǎo)向）

實(shí)驗(yàn)發(fā)現(xiàn)：

GPT-4o-Latest、GPT-4.1 等 " 好情商 " 選手，往往偏向 " 強(qiáng)烈共情 + 穩(wěn)妥模式回復(fù) "；

DeepSeek-R1、DeepSeek-V3-0324 則更像 " 創(chuàng)意支持伙伴 "，用極具創(chuàng)意的交互提供新奇有趣的解決方案；

Gemini2.0-Flash、o3 則是 " 專業(yè)理性派 "，常常采取標(biāo)準(zhǔn)化的問題解決模式，卻缺乏情感細(xì)膩度。

有趣的是：目前" 既創(chuàng)意十足又能深刻共情 "的 AI 人設(shè)仍未出現(xiàn)，而這或許正是 AI 與人類互動(dòng)中需要的 " 理想象限 "。

論文地址：https://www.arxiv.org/abs/2505.02847

Github 鏈接：https://github.com/Tencent/digitalhuman/tree/main/SAGE

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法！

— 完 —

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

ai abs 心理咨詢

相關(guān)閱讀

黃仁勛妻女現(xiàn)身中國(guó)臺(tái)北電腦展：女兒黃敏珊超像爸爸

快科技 47分鐘前

算法推薦亂象凸顯！中央網(wǎng)信辦督導(dǎo)抖音、小紅書、微博等平臺(tái)優(yōu)化調(diào)整

快科技 47分鐘前

爆炸貝染指馬桶人

快科技 1小時(shí)前

阿里云創(chuàng)始人王堅(jiān)談DeepSeek崛起：一個(gè)不被看好的小企業(yè)卻成功了

快科技 1小時(shí)前

OpenAI官宣收購(gòu)前蘋果首席設(shè)計(jì)官團(tuán)隊(duì)；騰訊首次完整披露大模型戰(zhàn)略；全球首個(gè)“世界機(jī)器人格斗大賽”本周日舉行

21世紀(jì)經(jīng)濟(jì)報(bào)道 1小時(shí)前

途虎養(yǎng)車與新石器無人車達(dá)成戰(zhàn)略合作，共建智能物流體系和無人車維保體系

21世紀(jì)經(jīng)濟(jì)報(bào)道 2小時(shí)前

首發(fā)玄戒O1芯片！小米15S Pro今晚發(fā)布：堆料到收不回成本

快科技 2小時(shí)前

微信開展短視頻惡意營(yíng)銷專項(xiàng)整治；盧偉冰爆料玄戒芯片不止一款；阿里大文娛更名虎鯨文娛

極客公園 2小時(shí)前

全國(guó)首條400G量子安全OTN智算加密專線業(yè)務(wù)開通跨越2000余公里

快科技 4小時(shí)前

傳聯(lián)發(fā)科與英偉達(dá)合作打造筆電芯片但廠商更愛高通？

數(shù)碼測(cè)評(píng) 4小時(shí)前

小米盧偉冰：玄戒芯片不止O1一款

頭條新聞 14小時(shí)前

不甘于工具，谷歌、微軟重注AI Agent

21世紀(jì)經(jīng)濟(jì)報(bào)道 10小時(shí)前

中央網(wǎng)信辦持續(xù)加強(qiáng)信息推薦算法治理

資訊貴陽 1小時(shí)前

情緒勞動(dòng)，累慘“低能耗”青年

讀覽精華 2小時(shí)前

小米15周年戰(zhàn)略新品前瞻！雷軍提前劇透

Wind資訊 4小時(shí)前

最新評(píng)論

沒有更多評(píng)論了

量子位

訂閱

覺得文章不錯(cuò)，微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

Blockchain News

<pre id="wiyqk"><s id="wiyqk"></s></pre>

<address id="wiyqk"></address>

<pre id="wiyqk"><u id="wiyqk"></u></pre>

<address id="wiyqk"></address>