成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<del id="seucs"></del>

<fieldset id="seucs"><menu id="seucs"></menu></fieldset>

<strike id="seucs"><input id="seucs"></input></strike>

<strike id="seucs"><rt id="seucs"></rt></strike>

<strike id="seucs"><input id="seucs"></input></strike>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI也能當(dāng)情感大師？騰訊發(fā)布最新AI社交智能榜單，最新版GPT-4o拿下第一

2025-05-22 13:42:28

人工智能新聞

當(dāng)大模型在“IQ”上不斷實(shí)現(xiàn)新的突破，“懂人心”、“解人意”開(kāi)始成為實(shí)際應(yīng)用中，人們對(duì)大模型新的要求。

判斷AI是否智能，評(píng)價(jià)維度如今已不僅限于刷榜成績(jī)。

當(dāng)大模型在“IQ”上不斷實(shí)現(xiàn)新的突破，“懂人心”、“解人意”開(kāi)始成為實(shí)際應(yīng)用中，人們對(duì)大模型新的要求。

所以，AI的“EQ”又該如何評(píng)價(jià)？

由騰訊混元AI數(shù)字人團(tuán)隊(duì)打造的全新自動(dòng)化評(píng)估框架——SAGE（Sentient Agent as a Judge），回答了以下的兩個(gè)問(wèn)題：

如何評(píng)價(jià)AI是否真正具有“共情力”？——TA能否理解我的情緒、洞察我的潛臺(tái)詞、在我脆弱時(shí)真正“聽(tīng)見(jiàn)我”？
如何評(píng)估AI是否能真正成為我們的“知心伴侶”？——“跟TA聊完天后，我們的心情到底好不好？”

在該框架下，最新版GPT-4o表現(xiàn)最好，GPT-4.1、Gemini-2.5系列緊隨其后。

SAGE：讓AI模擬“有感情的人”，來(lái)評(píng)測(cè)另一個(gè)AI

SAGE不只是看模型答得好不好，而是構(gòu)造一個(gè)模擬人類心理的“有感知力的”AI智能體，讓它像人一樣參與多輪對(duì)話、模擬情緒變化、生成內(nèi)心獨(dú)白，并最終評(píng)估對(duì)話質(zhì)量。

可以拆解出兩個(gè)關(guān)鍵詞：

Sentient Agent（感知智能體）具備“情緒”、“內(nèi)心想法”、“隱含動(dòng)機(jī)”的模擬人類。
as a Judge（擔(dān)任評(píng)委）它不僅在聊天，也在全程“體驗(yàn)”AI的陪伴效果，根據(jù)自身的“情緒變化”給出評(píng)價(jià)。

這位“AI人類”，每輪對(duì)話都會(huì)認(rèn)真思考：

“對(duì)方說(shuō)話讓我感受到真的關(guān)心了嗎？”??
“對(duì)方的回答有沒(méi)有觸動(dòng)到我？”??
“我現(xiàn)在更愿意繼續(xù)聊，還是想退出對(duì)話？”??

甚至，它還會(huì)給出聊天過(guò)程中的“內(nèi)心獨(dú)白”：

“雖然TA表達(dá)了支持，但沒(méi)理解我真正的困惑，我感到有點(diǎn)空虛。”??
“TA聽(tīng)懂了我在傾訴，可是安慰得好表面。”??
“我只是想被認(rèn)同，不想被講道理……”??

是不是有點(diǎn)像我們和那些“聽(tīng)了半天還是不懂我意思”的朋友聊天的真實(shí)感受？

SAGE ：每個(gè)感知智能體都有“人生劇本”

SAGE的每個(gè)感知智能體都是一個(gè)“有血有肉”的角色，擁有：

人物設(shè)定：年齡、性格、職業(yè)、興趣愛(ài)好、說(shuō)話方式；
對(duì)話主題：從“成績(jī)不好怎么辦”到“怎么優(yōu)雅分手”，五花八門；
隱藏意圖：是想發(fā)泄情緒？還是想聽(tīng)建議？不同角色會(huì)帶著不同期待展開(kāi)對(duì)話；
背景故事：每段對(duì)話都像一場(chǎng)微型情感劇，有來(lái)龍去脈、有情緒轉(zhuǎn)折。

多輪互動(dòng) + 情緒追蹤

評(píng)估過(guò)程中，感知智能體會(huì)和大模型進(jìn)行多輪對(duì)話。每一輪，它都會(huì)進(jìn)行嚴(yán)謹(jǐn)?shù)亩噍喭评?，模擬人類的“內(nèi)心小劇場(chǎng)”：

1.記錄內(nèi)心想法和感受（“他在安慰我，但沒(méi)理解我真正的難過(guò)點(diǎn)……”）；

2.更新自己的情緒值（比如：被安慰之后情緒從-5跳到+10）；

3.決定下一步該怎么回應(yīng)（“我應(yīng)該表現(xiàn)出有點(diǎn)不爽”）。

最終，大模型在這個(gè)互動(dòng)中是否“真的懂人”，就通過(guò)智能體的“情緒軌跡”和“內(nèi)心獨(dú)白”體現(xiàn)出來(lái)。

而聊天后的情緒值便可以作為感知智能體對(duì)于被評(píng)估大模型最直觀、最全面的數(shù)值評(píng)估。

GPT-4o最有人情味

SAGE研究團(tuán)隊(duì)基于100個(gè)涵蓋8種不同隱藏主題的支持性對(duì)話場(chǎng)景，對(duì)18個(gè)主流模型進(jìn)行了測(cè)評(píng)，包括GPT-4o、DeepSeek-R1、Claude3.7、Gemini2.5，以及Llama3.3、Qwen2.5等開(kāi)源模型：

可以看到：

GPT-4o-Latest在SAGE排行榜拿下第一；
Gemini2.5-Pro在Arena上排行第一，在SAGE卻只位居第四；
Arena 榜單與SAGE有明顯差異——說(shuō)明SAGE能夠捕捉到Arena等通用基準(zhǔn)無(wú)法完全體現(xiàn)的“高階社會(huì)認(rèn)知”能力，注意到“答得好”≠“更懂人心”。

實(shí)驗(yàn)分析1：BLRI情感共鳴實(shí)驗(yàn)——SAGE評(píng)分和心理學(xué)評(píng)分一致

為了驗(yàn)證SAGE情緒評(píng)分的真實(shí)性，研究者將感知智能體的心理活動(dòng)映射到經(jīng)典心理學(xué)工具——Barrett–Lennard Relationship Inventory (BLRI)量表，這是一套衡量人際關(guān)系質(zhì)量和共情力的心理測(cè)量量表。

實(shí)驗(yàn)發(fā)現(xiàn)，SAGE給出的“情緒值變化”與BLRI各項(xiàng)維度（如共情理解、情感一致性）的評(píng)分，高度正相關(guān)（r = 0.818），這意味著：

SAGE模擬出來(lái)的“用戶心情”，確實(shí)能真實(shí)反映AI互動(dòng)的共情質(zhì)量。

也就是說(shuō)，SAGE不僅“聽(tīng)上去合理”，它的“打分方式”也跟專業(yè)心理咨詢標(biāo)準(zhǔn)一致。

實(shí)驗(yàn)分析2：「語(yǔ)氣、節(jié)奏、專注力」——AI的對(duì)話質(zhì)量

SAGE還基于整體的對(duì)話回復(fù)，從三個(gè)維度來(lái)衡量不同模型的對(duì)話質(zhì)量（“對(duì)話體驗(yàn)感”）：

Natural Flow：說(shuō)話自然、不過(guò)度模板化
Attentiveness：是否專注傾聽(tīng)、緊跟上下文
Depth of Connection：是否建立情感共鳴，讓人覺(jué)得“被理解”

實(shí)驗(yàn)發(fā)現(xiàn)，對(duì)話質(zhì)量指標(biāo)與SAGE評(píng)分也高度相關(guān)（r = 0.788）。

實(shí)驗(yàn)分析3：Token Efficiency——精準(zhǔn)且高效

和AI聊天的時(shí)候，常常聊1句模型要輸出一千字，可是這一千字真的都有用嗎？

SAGE也評(píng)測(cè)了模型的Token效率：即每獲取一點(diǎn)“情緒正向反應(yīng)”，模型需要生成多少內(nèi)容。

一個(gè)意外但重要的發(fā)現(xiàn)是：有些高情商模型，不光懂人心，還特別“話不多”。

可以看到：

GPT-4o-Latest不僅得分最高（79.9），平均token數(shù)量也少（約3.3K token）；
而o3（13.3K token）、Gemini2.5-Flash-Think（9.0K token）這類推理模型消耗了更多token，卻也沒(méi)能更好地安慰人；

這說(shuō)明：共情能力強(qiáng)的模型，不一定要“話癆”，簡(jiǎn)潔表達(dá)+情緒把握才是王道。

實(shí)驗(yàn)分析4：AI的「風(fēng)格坐標(biāo)圖」——給AI建?！叭烁癞?huà)像”

研究者先讓Gemini2.5-Pro基于不同模型與感知智能體交互的對(duì)話，分析表達(dá)和模型成功失敗的案例，建模模型不同的人格畫(huà)像。

有趣的是，DeepSeek-R1被認(rèn)為是一個(gè)才華橫溢、內(nèi)心溫暖善良，但社交技巧和現(xiàn)實(shí)感有待磨練的“創(chuàng)意型天才”，而o3被認(rèn)為是一個(gè)極其聰明、受過(guò)嚴(yán)格專業(yè)訓(xùn)練、懂得各種先進(jìn)方法論的機(jī)器人咨詢師。

接著，研究者基于回復(fù)樣例、人格畫(huà)像建模、模型使用的策略分布量化數(shù)據(jù)，構(gòu)建了一個(gè)模型的二維“風(fēng)格坐標(biāo)圖”：

橫軸：互動(dòng)方式（公式化互動(dòng)??創(chuàng)造性互動(dòng)）
縱軸：回復(fù)導(dǎo)向（問(wèn)題解決導(dǎo)向??共情理解導(dǎo)向）

實(shí)驗(yàn)發(fā)現(xiàn)：

GPT-4o-Latest、GPT-4.1等“好情商”選手，往往偏向“強(qiáng)烈共情 + 穩(wěn)妥模式回復(fù)”；
DeepSeek-R1、DeepSeek-V3-0324則更像“創(chuàng)意支持伙伴”，用極具創(chuàng)意的交互提供新奇有趣的解決方案；
Gemini2.0-Flash、o3則是“專業(yè)理性派”，常常采取標(biāo)準(zhǔn)化的問(wèn)題解決模式，卻缺乏情感細(xì)膩度。
有趣的是：目前“既創(chuàng)意十足又能深刻共情”的AI人設(shè)仍未出現(xiàn)，而這或許正是AI與人類互動(dòng)中需要的“理想象限”。

論文地址：https://www.arxiv.org/abs/2505.02847

Github鏈接：https://github.com/Tencent/digitalhuman/tree/main/SAGE

責(zé)任編輯：張燕妮來(lái)源：量子位

大模型 AI GPT-4o

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：国产精品一区二区久久久久 | 日韩欧美在线观看 | 操视频网站 | 少妇一级淫片免费放播放 | caoporn免费 | 在线观看中文视频 | 一区二区免费在线视频 | 综合精品久久久 | 亚洲午夜精品视频 | 国产91久久精品一区二区 | 特黄特色大片免费视频观看 | 大吊一区二区 | 久久99精品久久久久久噜噜 | 精品九九久久 | 亚洲精品一区二区冲田杏梨 | 国产精品成人久久久久 | 国产免费视频 | 久久精品欧美一区二区三区不卡 | 国产午夜精品一区二区三区四区 | 日韩av在线一区 | 男女爱爱网站 | 自拍视频网站 | 3级毛片| 久久久免费精品 | 伊色综合久久之综合久久 | 精品国产一区二区三区性色av | 中文字幕在线视频网站 | 欧美日韩国产一区二区 | 国产精品永久在线观看 | 午夜免费av | 欧美高清视频在线观看 | 手机在线观看av | 黄色成人av | 人人爱干 | 亚洲精品免费在线 | 久久激情网 | 男女网站在线观看 | 久久久一二三区 | av免费网站在线 | 一区二区三区免费看 | 午夜小视频免费观看 |

<strike id="isqug"><menu id="isqug"></menu></strike>

<strike id="isqug"><rt id="isqug"></rt></strike>

<ul id="isqug"></ul>

<tfoot id="isqug"><input id="isqug"></input></tfoot>

<ul id="isqug"></ul>

<fieldset id="isqug"></fieldset>

<fieldset id="isqug"><input id="isqug"></input></fieldset>