成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首個個性化對齊大模型問世!可精準識別用戶內在動機和偏好,還有百萬用戶畫像開源數據集 | 螞蟻&人大

人工智能 新聞
本研究首次系統地探索了大規模個性化偏好對齊范式,為模型適配多樣化人類需求開辟新路徑。

如何讓大模型更懂「人」?

雖然現有大模型經過了人類價值觀對齊訓練,但其對齊效果往往會讓少數群體的聲音被系統性淹沒。

那隨之而來的問題是,當大模型服務全球用戶,標準化對齊范式是否正在制造新的數字鴻溝?

來自人大和螞蟻的研究團隊洞察到傳統對齊范式的結構性缺陷:

基于普世原則(如無害性、有用性)的單一價值觀體系,本質上是對人類復雜心理圖譜的暴力降維。這就像用同一副濾鏡處理所有影像,雖能保證基礎畫質,卻抹殺了萬千色彩的獨特性。

更嚴峻的是,現有反饋系統收集的「集體智慧」,往往演變成主流偏好的回聲室,使得教育背景、文化認同等關鍵差異項在數據池中悄然消融。

面對這一挑戰,研究團隊提出大模型應該轉向個性化對齊訓練

這首先需要構建一個全面而精準的人類偏好表征系統。受到認知科學的啟發,研究團隊構建了首個90維心理偏好空間,巧妙融合馬斯洛需求層次理論、默里需求體系、前沿對齊研究維度與億級社交平臺興趣圖譜。

這個可解釋的坐標體系如同數字羅盤,既能定位用戶「偏好什么」(如知識獲取傾向),更能揭示「為何偏好」(如自我實現需求)。

基于該框架,研究團隊構建并開源了首個包含130萬用戶畫像的AlignX數據集,以及基于大規模綜合個性化訓練的大語言模型AlignXpert。

該模型采用兩種互補的個性化對齊方法:

一是通過上下文對齊(In-Context Alignment,ICA)將用戶畫像直接整合到上下文窗口中進行隱式偏好學習;

二是通過偏好橋接對齊(Preference-Bridged Alignment,PBA)將用戶畫像映射為結構化偏好分布,在保持對不同用戶群體穩健泛化能力的同時,提升了模型的可解釋性和可控性。

在4個具有挑戰性的基準測試中,AlignXpert對用戶偏好的預測準確率實現了平均17.06%的相對提升。

值得一提的是,研究團隊同步發布了首篇聚焦個性化對齊的綜述論文。

該綜述系統性地探討了大語言模型如何在保持普適倫理邊界的同時,實現對個體偏好的精準適配。通過提出統一的技術框架,涵蓋偏好記憶管理、個性化生成和基于反饋的對齊機制,為未來更具適應性的倫理對齊模型發展指明方向。這份綜述與本文提出的AlignX形成優勢互補:綜述梳理了技術全景,而AlignX則是從理論到實踐的突破性嘗試。

圖片

該論文的第一作者是中國人民大學高瓴人工智能學院博士生李嘉楠,螞蟻技術研究院副研究員關健為共同第一作者。

對齊幻象下的千人一面困局

在大模型對齊技術日益精進的表象之下,潛藏著一個被集體忽視的悖論:當開發者不斷疊加「無害性」「誠實性」「幫助性」等普世原則時,模型的「價值熵減」現象卻愈演愈烈。

這種矛盾集中體現在兩大困境:

一是系統性排除效應,少數群體的文化觀念、道德立場在默認對齊框架中遭遇靜默擦除;

二是適配性塌縮,用戶滿意度因缺乏個性化響應而持續衰減。

這一危機直指對齊范式的根本缺陷:人類價值觀的多元光譜與大模型開發者預設的單一道德坐標系之間,存在著無法彌合的認知鴻溝。

圖片

△對某個用戶提示的生成空間進行可視化。

在大模型開發者預設的三個普世價值觀維度下,現有大模型所對齊的社會偏好密集區域是所有個性化偏好密集區域的平均。

深入剖析現有方法,團隊發現主流“一刀切”的對齊技術依賴兩大脆弱假設:

一是將復雜的人類偏好壓縮為幾個單向度指標(如「幫助性(越高越好)」),二是將個體差異簡化為同質化數據池中的統計噪聲。這種粗放式建模猶如在數據荒漠中盲目繪制用戶畫像,既無法捕捉價值觀沖突中的微妙平衡(如自由表達vs社會規范),更無力應對長尾群體的認知特異性。

尤為嚴峻的是,基于匿名聚合數據的對齊訓練,實質上抹殺了用戶畫像與偏好維度間的因果紐帶,導致模型始終在認知迷霧中摸索。

圖片

△AlignX個性化對齊數據示意圖。

這個示意圖中,包含一個帖子及其兩個候選回答,三類人格表征包含行為模式和描述性特征,可實現精準偏好推斷并促進偏好學習(右下)。值得注意的是,基于普世價值觀對齊的大語言模型(如GPT-4)傾向于選擇回答2,與用戶傾向于回答1的個性化偏好形成對立。

正如綜述論文所指出的,人類偏好并非單一維度的線性優化問題,而是動態、多維且受社會文化深刻影響的復雜系統。

如下圖所示,個性化對齊的核心在于構建一個能夠動態平衡普適倫理與個體需求的框架。通過引入偏好記憶管理、個性化生成和基于反饋的對齊機制,模型可以在保持倫理邊界的同時,精準適配用戶偏好。這不僅是技術的突破,更是對“千人一面”困局的深刻反思。

圖片

△個性化對齊框架

AlignX:構建可擴展的個性化對齊數據集

面對個性化對齊中多維度偏好建模的復雜性,研究團隊提出了一套系統化偏好表征框架,其核心突破在于融合「直接偏好方向」與「間接用戶畫像」的雙重認知架構,將人類需求的底層邏輯轉化為可計算的科學語言。

這一創新建立在心理學與社會認知科學的堅實基礎上。通過引入結構化表征方法,該框架為大規模用戶偏好學習構建了一個「認知操作系統」。

系統通過兩個層次建模用戶偏好:

(1)全面的偏好空間映射,將90個關鍵偏好維度(如“安全感”、“社交歸屬”、“自我實現”等)編碼為可量化的方向標簽(正向/負向/中性);

(2)多源異構用戶畫像表示,整合行為模式(包括用戶的生成內容、比較式反饋)與描述性特征(即人口統計屬性)。

基于該偏好表示框架,研究團隊開創了從海量交互數據中可擴展地提煉個性化對齊數據的新范式。從Reddit論壇16億級真實討論和現有的多個對齊數據集出發,研究團隊構建了包含130萬個用戶畫像的AlignX數據集。AlignX中每條數據被表征成一個五元組,包括用戶畫像、用戶畫像隱含的偏好向量、用戶Prompt、用戶偏好的回復和用戶不偏好的回復。AlignX數據集的核心在于將個性化對齊任務形式化為一個條件策略學習問題,使模型能夠基于用戶畫像生成與用戶偏好相符的回復。

AlignXpert:解密用戶行為中的隱式偏好

基于AlignX數據集,研究團隊訓練得到能夠根據用戶畫像進行個性化生成的模型AlignXpert。該模型可以通過兩種方案實現個性化對齊——上下文對齊(ICA)與偏好橋接對齊(PBA),分別對用戶畫像隱含的用戶偏好進行隱式和顯式的建模:ICA:上下文對齊直接將用戶畫像與用戶Prompt拼接為上下文窗口,訓練模型捕捉隱式用戶偏好,實現零樣本泛化能力。該方案巧妙利用大模型的上下文學習特性,從用戶畫像中隱式地學習隱含的用戶偏好。

PBA:偏好橋接對齊引入隱變量顯式建模用戶偏好方,通過兩階段分解實現可解釋的偏好傳遞:第一階段將用戶畫像壓縮為偏好方向向量,第二階段將其轉化為自然語言描述注入生成過程。

兩大方法形成互補優勢:

  • 隱顯協同ICA擅長捕捉動態交互模式,PBA精于結構化偏好推理
  • 效率革命ICA利用現成上下文機制,PBA通過用戶畫像向量化壓縮計算開銷

圖片

△ 對齊方法概述

廣泛提升模型對齊能力

實驗結果令人振奮!研究團隊在涵蓋普世價值觀對齊(UF-P-4)、真實用戶個性化偏好對齊(PRISM、P-Soups)及綜合對齊(AlignX-test)的四大具有挑戰性的基準上,系統驗證了AlignXpert的卓越性能。

1. 跨維度對齊:通用與個性化價值的雙重征服

AlignXpert在通用價值觀與個性化偏好場景中均展現卓越表現。雖然基準模型在普世價值觀(UF-P-4)上表現良好,但它們在個性化偏好(P-Soups、AlignX-test)上表現欠佳。AlignXpert在兩種場景下均保持卓越性能,并在分布外基準測試中展現出強大的泛化能力,在PRISM/ P-Soups上分別以9.83%/32.25%的優勢超越基線。

圖片

△ 不同模型在含各類用戶畫像的偏好對齊任務中的對齊準確率(%)

圖片

△GPT-4勝率(M1:Llama-3.1-8B-Instruct;M2:AlignXpert-ICA;M3:AlignXpert-PBA)

2. 泛化未來:新偏好維度快速適配

研究團隊探究AlignXpert在AlignX上的偏好對齊訓練是否為適應新偏好維度提供了更優的初始化參數。基于兩個新維度——“幽默”(詼諧vs嚴肅)與”實用主義”(實踐導向vs理論導向),研究團隊構建了包含6,355個訓練樣本和1,000個測試樣本的數據集。

對比三種適應方法:(1) 在ICA框架下微調Llama-3.1-8B-Instruct,(2) 在ICA框架下微調AlignXpert-ICA,(3) 在PBA框架下微調AlignXpert-PBA。兩種AlignXpert變體均顯著超越Llama基線(p值<0.05),表明模型習得的是可泛化的偏好對齊機制,而非對訓練維度的簡單擬合。

圖片

△在新偏好維度下的對齊準確率

3. 交互數據稀缺,仍能維持表現

在真實應用場景中,用戶往往僅具備有限的交互歷史,這使得個性化偏好對齊模型在不同規模歷史數據下的穩定表現至關重要。研究團隊評估了AlignXpert模型對用戶互動歷史數據量的魯棒性。通過使用2~16組用戶生成內容和成對比較數據作為用戶畫像進行測試,揭示了AlignXpert的兩大核心優勢:

數據稀缺場景下的穩健性:即使用戶畫像中僅包含2個樣本數據,模型仍能保持可靠性能;增益效應:隨著歷史數據增加,準確率持續提升。

圖片

△不同交互歷史數量下的對齊準確率

4. 控制自如的偏好

偏好對齊系統的核心能力在于適應多元甚至對立的用戶偏好,而非固化單一傾向。為驗證AlignXpert的該特性,研究團隊在P-Soups和AlignX-test數據集開展可控性實驗:在推理階段對用戶畫像中的成對偏好樣本及目標偏好回復對的偏好方向進行反轉(如將"y_w>y_l"改為"y_w<y_l"),并通過兩項指標評估可控性:

對齊準確率(Acc):衡量模型在偏好反轉條件下是否能準確預測被偏好的回復;翻轉成功率(Flip):統計模型在偏好反轉之后預測也成功反轉的比例。

AlignXpert在兩項指標上均展現卓越可控性。基線模型則表現出顯著低的翻轉成功率(3-15%),證實其過擬合到固定的偏好方向,而AlignXpert實現了動態適應性優化。

圖片

△偏好反轉場景下的模型表現

結語

本研究首次系統地探索了大規模個性化偏好對齊范式,為模型適配多樣化人類需求開辟新路徑。

核心貢獻包括:

(1) 突破性提出“間接用戶畫像-直接偏好方向”雙向映射框架,實現復雜偏好建模的系統性突破;

(2) 開源AlignX數據集,提供130萬條精細化用戶畫像-偏好關聯數據,刷新對齊數據規模天花板;

(3) AlignXpert模型通過上下文學習或偏好橋接對齊策略,在零樣本適應、低交互優化等場景實現卓越性能提升。

實驗證明該方案在偏好可控性等方面達到新高度,為教育、心理咨詢等個性化服務領域奠定基礎。研究團隊期待該框架持續進化,在人類價值觀建模與隱私保護平衡等方向實現更深層突破。

論文地址:https://arxiv.org/pdf/2503.15463

Github:https://github.com/JinaLeejnl/AlignX

Dataset:https://huggingface.co/datasets/JinaLeejnl/AlignX

Survey鏈接:https://arxiv.org/abs/2503.17003

責任編輯:張燕妮 來源: 量子位
相關推薦

2016-04-08 11:39:49

用戶畫像個性化推薦標簽

2017-07-24 09:18:29

大數據設計UX

2024-05-09 07:32:09

用戶畫像平臺大數據算法

2009-07-13 15:33:24

桌面虛擬化虛擬化IT

2013-01-04 09:41:11

云計算個性化精準促銷Me Marketin

2025-04-01 09:46:08

2014-07-08 16:59:00

2025-06-05 09:50:50

2010-09-08 21:45:52

企業郵箱網絡通信263郵箱

2009-04-23 18:05:58

火狐firefox瀏覽器

2017-02-09 11:05:11

大數據用戶畫像技術

2014-07-10 10:19:47

Adobe

2022-11-01 07:19:45

推薦系統非個性化

2018-01-02 09:00:51

大數據營銷王者榮耀

2023-10-10 15:21:51

人工智能

2025-03-19 08:36:55

2014-12-12 09:43:13

阿里巴巴安全漏洞信息泄露

2013-07-13 14:11:11

個性化搜索

2020-06-28 07:00:00

推薦系統智能商務服務平臺

2024-09-27 07:59:38

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色片网此 | 日韩精品视频在线 | 国产传媒在线观看 | 精品欧美乱码久久久久久 | av黄色在线| 在线观看欧美一区 | 日本视频中文字幕 | 久久99精品久久久久久狂牛 | 女女百合av大片一区二区三区九县 | 国产精品成av人在线视午夜片 | 91超碰caoporn97人人| 亚洲一区二区三区免费视频 | 国产精品久久av | 国产精品成人69xxx免费视频 | 免费欧美 | 久久久久国产精品一区二区 | 操操日| 毛片在线免费 | 国产www.| 自拍第1页 | 一二三四在线视频观看社区 | 国产ts人妖系列高潮 | 97超碰免费| 免费在线视频精品 | 黄色大片免费网站 | 日本电影韩国电影免费观看 | 亚洲精品福利视频 | 波多野结衣在线观看一区二区三区 | 久久精品亚洲一区二区三区浴池 | 久久伊人精品 | 日韩高清一区二区 | 欧美色综合天天久久综合精品 | 成人三级视频 | 国产伦精品一区二区三区高清 | 亚洲福利在线观看 | 久久国产欧美一区二区三区精品 | 日韩在线| 久久999| 一区二区电影网 | 精品美女在线观看视频在线观看 | 国产欧美一区二区三区在线看 |