微軟、Anthropic正在拉滿大模型的情緒價值原創

51CTO技術棧

發布于 2024-11-21 13:52

瀏覽

0收藏

編輯 | 星璇

出品 | 51CTO技術棧（微信號：blog51cto）

再過3天，ChatGPT 就要迎來它的第二個生日了，GPT 推出也已經6年了。

到目前為止，大型語言模型（LLM）一直在有效發展。它們真實、敏捷且足智多謀。甚至可以說它們在檢索信息方面接近完美。但是作為“信息傳遞工具”，又如何呢？

在最近接受 Reid Hoffman 采訪時，Microsoft AI 首席執行官 Mustafa Suleyman 表示：“AI 研究人員通常傾向于忽視信息傳遞工具的重要性。

考慮到理解和響應人類情感的能力如何成為一個關鍵的差異化因素，Mustafa 預測 AI 公司現在將根據其前沿模型的情商相互“角力”。

微軟、Anthropic正在拉滿大模型的情緒價值-AI.x社區圖片

1.C端AI，情商很關鍵

Mustafa 強調，消費者通常更看重這些模型的語氣和情商，以及它們設法反映用戶獨特語言風格的方式，而不僅僅是提供客觀的、百科全書式的維基百科反芻。

在 GPT 4o 中推出高級語音功能后，OpenAI 今年的重點領域之一是集成類似人類的語音對話工具。同樣，當 Google 的 NotebookLM 推出一款精致的文本轉播客工具“Deep Dive”時，AI 社區很快就接受了這個沒有噱頭的工具。

計算機科學家 Andrej Karpathy 表達了他對該工具的贊賞，甚至使用 NotebookLM 發布了一個 10 集的整個播客系列。“NotebookLM 播客劇集生成可能觸及了一個極具吸引力的 LLM 產品格式的全新領域。感覺讓人想起 ChatGPT。也許我反應過度了，“他說。

2.新方向：摸索大模型的“情商規律”

不僅僅是 AI 領域的行業巨頭。今年三個月后，被稱為“情商人工智能”的 Hume AI 在由 EQT 風險投資領投的 B 輪融資中獲得了 5000 萬美元的資金。9 月，他們發布了最新的 EVI 2 模型，該模型通過專門的情商訓練適應用戶偏好。

今年早些時候，研究人員探索了 LLM 的情商。EmoBench 是一個流行的基準，它評估了這種能力。結果表明，OpenAI 的 GPT 4 在“情感理解和情感應用”方面最接近人類。然而，所評估的模型在今天已成為過去。

最近，一項研究使用 Python 庫測量了 LLM 的“表現力”。研究人員還進行了一項實驗，涉及以詩歌風格根據情緒生成詩歌，包括遺憾、喜悅和懊悔的感覺。雖然 LLM 的表現令人滿意，但結果表明，在表達具有相似含義的情緒時存在混淆。

“所有 GPT 模型在被提示表示不贊成時通常會表示贊同。這是一個重要的例子，兩種含義相互沖突的情緒經常被誤解，“他們說。

當這些 LLM 的任務是生成 34 位不同詩人風格的詩歌時，GPT 4o 顯示出最高的表現力。然而，這些模型在負責識別女性詩人時表現出困惑，這可能在一定程度上表明了性別偏見。

在常規對話中，表現力逐漸下降。也就是說，盡管有局限性，但 Llama 3 的表現最好。應該注意的是，當提供有關主題、專業或角色的額外背景時，這些 LLM 的表現會更好。

“對于專業信號，LLM 表現出一致且不斷增長的表達水平。相反，對于情緒信號，LLM 的表達性變化更大，隨著模型根據不斷變化的情緒背景調整和改變其反應，準確性會波動，“研究人員補充道。

3.Anthropic目前的目標：提高模型情商

Anthropic 認為情商是提高 Claude 的重要因素。哲學家兼 Anthropic 技術人員 Amanda Askell 在接受 Lex Fridman 采訪時說：“我的主要想法一直是試圖讓 Claude 的行為方式，如果他們處于 Claude 的位置，你希望任何人都能理想地表現。

“所以想象一下，我帶一個人去，他們知道他們將與可能有數百萬人交談，這樣他們所說的話就會產生巨大的影響，你希望他們在這種真正豐富的意義上表現良好，”Askell 說。

對于更新的模型，Anthropic 正在努力幫助 Claude 以細致入微的情緒和表情做出回應。這涉及塑造模型以了解何時關心、何時表現得幽默、何時尊重意見以及何時確定自主程度。

她還解決了 LLM 中的阿諛奉承問題，即使他們是正確的，他們也傾向于糾正他們的輸出，只是為了服從人類輸入所說的。“如果 Claude 真的確信這不是真的，Claude 應該說，'我不這么認為。也許你有更多最新的信息'，“Askell 補充道。

Askell 還提到，她想提高 Claude 在對話中提出相關后續問題的能力。總的來說，Anthropic 目前的目標是在 Claude 內心灌輸真實的個性，而不是推遲或霸道地對待人類。雖然關于 LLM 碰壁并達到其可擴展性極限的討論和爭論不斷涌現，但調整這些模型以提高情商是一種選擇。

但是，需要注意的是。今年早些時候，OpenAI 發布了一張“系統卡”，警告人們可能會過度依戀情商高的 AI。

“使用 AI 模型進行類人社交可能會產生影響人與人互動的外部性。例如，用戶可能會與 AI 建立社交關系，減少他們對人際互動的需求，可能會使孤獨的人受益，但可能會影響健康的人際關系，“OpenAI 在報告中指出。

微軟、Anthropic正在拉滿大模型的情緒價值-AI.x社區圖片

不幸的是，據之前的一個報道，一位14歲的少年由于對 CharacterAI 中的某個角色產生了深深的情感依戀，最終導致其自殺身亡。

由此可見，提高 AI 模型中的情商還有很多工作需要做，也有許多問題需要解決。開發面向消費者層面上 AI 互動技術無疑是一個明確的趨勢，但在讓大模型在同理心和責任感之間取得平衡，更加至關重要。

本文轉載自51CTO技術棧，作者：星璇

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

微軟

Anthropic

ChatGPT

贊

回復

舉報

回復

相關推薦

來自Anthropic：如何衡量大語言模型的說服力？

AIGC最前線 ? 3585瀏覽 ? 0回復
一大堆Chinese Llama3正在襲來

NLP工作站 ? 2793瀏覽 ? 0回復
一大堆Llama3.1-Chinese正在襲來

NLP工作站 ? 3179瀏覽 ? 0回復
小模型和開源正在成為AI發展的變數

51CTO技術棧 ? 2281瀏覽 ? 0回復
使用Hugging Face Transformer檢測文本中的情緒

51CTO內容精選 ? 2769瀏覽 ? 0回復
Anthropic 公開了自家的模型“操作說明”，業界大贊：Nice，非常透明！

51CTO技術棧 ? 2308瀏覽 ? 0回復
大模型的熱度正在下降，大模型的未來在哪里？

AI探索時代 ? 2410瀏覽 ? 0回復
微軟新綜述：大模型RAG系統的4層境界！

探索AGI ? 3581瀏覽 ? 0回復
微軟提出LLM-dCache:GTP驅動本地數據緩存優化的大模型

AI論文解讀 ? 2872瀏覽 ? 0回復
Anthropic：前沿模型的破壞能力評估——保障AI安全的重要探索

AIGC最前線 ? 2516瀏覽 ? 0回復
OpenAI離不開微軟，但Anthropic正在成為新寵

51CTO技術棧 ? 2040瀏覽 ? 0回復
微軟“虛擬小人”項目或將激發出一大批高價值生成式AI場景，打破“叫好不叫座”困境

Syrupup ? 2886瀏覽 ? 0回復
從數據集到模型：視頻和音頻情緒分析的綜合研究

xuxiangda ? 4555瀏覽 ? 0回復
大模型廠商視角的AI Agent綜述，Anthropic圖文并茂多個案例教你構建有效智能體

王吉偉自頻道 ? 6304瀏覽 ? 0回復
大模型在零樣本面部情緒標注中的突破與應用

xuxiangda ? 2775瀏覽 ? 0回復
大模型展示的推理過程可信嗎？Anthropic這項研究給出了一些答案

Syrupup ? 1353瀏覽 ? 0回復
忘掉 Manus 模型上下文協議MCP 正在重新定義智能體的未來

數字化助推器 ? 1857瀏覽 ? 0回復
谷歌的“雙子星”，正在圍剿一眾大模型

51CTO技術棧 ? 1402瀏覽 ? 0回復
奧特曼自曝：改版后的GPT-4o諂媚過頭了，系情緒價值拉滿后的結果，實測：大廠薅開源羊毛有錯嗎？沒錯！

51CTO技術棧 ? 1360瀏覽 ? 0回復

51CTO技術棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂