成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

北大團隊發(fā)布首篇大語言模型心理測量學系統(tǒng)綜述:評估、驗證、增強

人工智能 新聞
這篇綜述論文首次系統(tǒng)梳理了 LLM 心理測量學的研究進展。

隨著大語言模型(LLM)能力的快速迭代,傳統(tǒng)評估方法已難以滿足需求。如何科學評估 LLM 的「心智」特征,例如價值觀、性格和社交智能?如何建立更全面、更可靠的 AI 評估體系?北京大學宋國杰教授團隊最新綜述論文(共 63 頁,包含 500 篇引文),首次嘗試系統(tǒng)性梳理答案。

圖片


  • 論文標題:Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement
  • 論文鏈接:https://arxiv.org/abs/2505.08245
  • 項目主頁:https://llm-psychometrics.com
  • 資源倉庫:https://github.com/valuebyte-ai/Awesome-LLM-Psychometrics

背景

大語言模型(LLMs)的出現(xiàn),推動了人工智能技術(shù)的快速發(fā)展。它們在自然語言理解和生成等方面表現(xiàn)出較強的通用能力,并已廣泛應用于聊天機器人、智能搜索、醫(yī)療、教育、科研等多個領(lǐng)域。AI 正逐步成為社會基礎(chǔ)設(shè)施的重要組成部分。 

與此同時,如何科學、嚴謹?shù)卦u估這些能力不斷提升的 AI 系統(tǒng),成為亟需解決的問題。 LLM 評估面臨的挑戰(zhàn)包括但不限于:

  • LLMs 展現(xiàn)出的「心智」特征(如性格、價值觀、認知偏差等)超出了傳統(tǒng)評測的覆蓋范圍;
  • 模型的快速迭代和訓練數(shù)據(jù)的持續(xù)更新,使得靜態(tài)基準測試難以長期適用;
  • LLMs 對提示和上下文高度敏感,評估結(jié)果易受細微變化影響,難以保證結(jié)果的穩(wěn)定性和有效性;
  • 隨著 AI 與人類交互的日益深入,單純依賴任務分數(shù)的評估方式已難以滿足「以人為本」的需求;
  • AI 逐步應用于多模態(tài)和智能體系統(tǒng),對評估方法的廣度和深度提出了更高要求。

這些挑戰(zhàn)與心理測量學長期關(guān)注的核心問題高度契合:如何科學量化和理解復雜、抽象的心理特質(zhì)(如知識、技能、性格、價值觀等)。心理測量學通過將這些特質(zhì)轉(zhuǎn)化為可量化的數(shù)據(jù),為教育、醫(yī)療、商業(yè)和治理等領(lǐng)域的決策提供支持。

將心理測量學的理論、工具和原則引入大語言模型的評估,為系統(tǒng)理解和提升 AI「心智」能力提供了新的方法路徑,并推動了「LLM 心理測量學(LLM Psychometrics)」這一交叉領(lǐng)域的發(fā)展。這一方向有助于更全面、科學地認識和界定人工智能的能力邊界。

主要內(nèi)容

這篇綜述論文首次系統(tǒng)梳理了 LLM 心理測量學的研究進展,結(jié)構(gòu)如下圖所示。

圖片

心理測量和 LLM 基準的差異與評估原則的革新

圖片

圖:心理測量學和 AI 基準的對比

在大語言模型的評估領(lǐng)域,傳統(tǒng) AI 基準測試和心理測量學看似都依賴測試項目和分數(shù)來衡量能力,但兩者的內(nèi)核卻截然不同。

傳統(tǒng) AI 評測更注重模型在具體任務上的表現(xiàn)和排名,強調(diào)測試的廣度和難度,往往依賴大規(guī)模數(shù)據(jù)集和簡單的準確率指標,結(jié)果多局限于特定場景,難以反映模型的深層能力。

而心理測量學則以「構(gòu)念」為核心,追求對心理特質(zhì)的深入理解,強調(diào)測試項目的科學設(shè)計和解釋力,采用如項目反應理論(IRT)等先進統(tǒng)計方法,力求讓測試結(jié)果既可靠又具備預測力,能夠揭示個體在多樣認知任務中的表現(xiàn)規(guī)律。 正是基于這種理念的轉(zhuǎn)變,研究者們提出了三大創(chuàng)新方向。

首先,使用「構(gòu)念導向」的評估思路,不再滿足于表層分數(shù),而是深入挖掘影響模型表現(xiàn)的潛在變量。

其次,研究者們引入心理測量學的嚴謹方法,提出證據(jù)中心基準設(shè)計等新范式,結(jié)合心理測量學輔助工具,規(guī)避數(shù)據(jù)污染,提升測試的科學性和可解釋性。

最后,研究者們將項目反應理論應用于 AI 評測,實現(xiàn)了動態(tài)校準項目難度、智能調(diào)整權(quán)重、自動生成不同難度的新測試項目,并探索了 AI 與人類反應分布的一致性,使得不同 AI 系統(tǒng)間、AI 與人類之間的比較更加科學和公平。

 這一系列革新,正推動 AI 評估從「分數(shù)導向」走向「科學解碼」,為理解和提升大語言模型的「心智」能力打開了全新視角。

測量構(gòu)念的擴展

LLM 展現(xiàn)出類人的心理構(gòu)念,這些構(gòu)念對模型行為產(chǎn)生深遠影響,包括人格構(gòu)念(性格,價值觀,道德觀,態(tài)度與觀點)、能力構(gòu)念(啟發(fā)式偏差,心智理論,情緒智能,社交智能,心理語言學能力,學習認知能力)。該綜述系統(tǒng)梳理了針對這些心理構(gòu)念的評估工作,綜述了相關(guān)理論、工具和主要結(jié)論。

圖片

測量方法

LLM 心理測量學的方法體系為 LLM「心智」能力的系統(tǒng)評估奠定了基礎(chǔ),主要包括測試形式、數(shù)據(jù)來源、提示策略、輸出評分和推理參數(shù)五個方面。

測試形式分為結(jié)構(gòu)化(如選擇題、量表評分,便于自動化和客觀評估,但生態(tài)效度有限)和非結(jié)構(gòu)化(如開放對話、智能體模擬,更貼近真實應用,能捕捉復雜行為,但標準化和評分難度較高)。

數(shù)據(jù)與任務來源既有標準心理學量表,也有人工定制項目以貼合實際應用,還有 AI 生成的合成項目,便于大規(guī)模多樣化測試。提示策略涵蓋角色扮演(模擬不同身份特征)、性能增強(如思維鏈、情感提示提升能力)、以及提示擾動和對抗攻擊(測試模型穩(wěn)定性)。

輸出與評分分為封閉式(結(jié)構(gòu)化輸出,基于概率或預設(shè)標準)和開放式(基于規(guī)則、模型或人工評分),后者更具挑戰(zhàn)性。推理參數(shù)(如解碼方式)也會影響評估結(jié)果,需結(jié)合確定性與隨機性設(shè)置,全面揭示模型特性。

圖片

測量驗證

與傳統(tǒng) AI 基準測試不同,LLM 心理測量學強調(diào)理論基礎(chǔ)、標準化和可重復性,需建立嚴格的驗證體系以確保測試的可靠性、效度和公平性。

本文系統(tǒng)梳理了三個關(guān)鍵方面:

首先,可靠性關(guān)注測試結(jié)果的穩(wěn)定性,包括重測信度、平行形式信度和評分者信度;當前測試的信度面臨挑戰(zhàn),如 LLM 在提示擾動中表現(xiàn)出不穩(wěn)定性。

其次,效度評估測試是否準確測量目標構(gòu)念,涉及內(nèi)容效度、構(gòu)念效度和校標效度等,主要挑戰(zhàn)包含數(shù)據(jù)污染、LLM 與人類在心理構(gòu)念的內(nèi)部表征上存在差異,評估結(jié)果向真實場景的可遷移性等。

最后,文章歸納了近期研究提出的標準和建議,為 LLM 心理測量學建立科學方法論基礎(chǔ)。

圖片

基于心理測量學的增強方法

心理測量學不僅為 LLM 評估提供理論基礎(chǔ),也為模型開發(fā)和能力提升開辟了新路徑。當前,心理測量學主要在特質(zhì)調(diào)控、安全對齊和認知增強三大方向增強 LLM。

特質(zhì)調(diào)控方面,通過結(jié)構(gòu)化心理量表提示、推理干預和參數(shù)微調(diào)等方法,LLM 能夠模擬和調(diào)節(jié)多樣的人格特質(zhì),廣泛應用于個性化對話、角色扮演和人口模擬。

安全對齊方面,研究揭示了模型心理特質(zhì)與安全性、價值觀對齊的密切關(guān)系,借助價值觀理論、道德基礎(chǔ)理論和強化學習等手段,推動模型更好地契合人類期望與倫理標準。

認知增強方面,心理學啟發(fā)的提示策略、角色扮演及偏好優(yōu)化等方法,有效提升了 LLM 的推理、共情和溝通能力。

整體來看,心理測量學為 LLM 的安全性、可靠性和人性化發(fā)展提供了堅實支撐,推動 AI 邁向更高水平的智能與社會價值。

未來展望

該綜述總結(jié)了 LLM 心理測量學的發(fā)展趨勢、挑戰(zhàn)與未來方向。當前,LLM 在人格測量及其驗證上取得初步成果,但能力測試的信效度驗證和廣泛測試的真實場景泛化仍待加強。傳統(tǒng)人類構(gòu)念難以直接遷移,需發(fā)展適用于 LLM 的新理論和測量工具。

研究還需區(qū)分模型表現(xiàn)出的特質(zhì)(perceived traits)與對齊特質(zhì)(aligned traits),關(guān)注評估主觀性。模型擬人化方式、統(tǒng)計分析方式及多語言、多輪交互、多模態(tài)和智能體環(huán)境等新維度帶來挑戰(zhàn)。項目反應理論(IRT)為高效評估和模型區(qū)分提供新思路。

未來還應推動心理測量在模型增強和訓練數(shù)據(jù)優(yōu)化等方面的應用。 AI 發(fā)展已進入「下半場」,評估的重要性與挑戰(zhàn)性日益凸顯。LLM 心理測量學為評估人類水平 AI 提供了重要范式,有助于推動 AI 向更安全、可靠、普惠的方向發(fā)展。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-10-07 13:17:44

2023-10-23 12:43:05

模型訓練

2022-05-24 15:29:48

人工智能大數(shù)據(jù)心理測量

2023-10-29 22:38:59

2023-09-10 10:51:22

算法結(jié)構(gòu)

2025-03-17 12:55:18

2023-11-15 13:42:00

模型數(shù)據(jù)

2023-07-04 12:57:57

多模態(tài)語言模型

2025-01-16 17:08:38

2025-05-08 09:10:30

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2022-09-13 15:40:56

模型分析

2024-09-05 13:11:49

2024-11-29 18:37:07

2023-05-26 00:43:08

2024-03-13 11:59:00

研究模型

2022-09-13 14:54:08

模型AI

2025-02-28 09:15:00

2024-05-13 10:38:08

2023-08-28 00:27:11

模型監(jiān)督
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 青青久视频| 国产精品日韩欧美一区二区三区 | 欧美精品欧美精品系列 | 亚洲国产日韩欧美 | 天天射美女 | 日本在线视频不卡 | 日韩免费福利视频 | 日本成人中文字幕 | av电影一区 | 成年人免费网站 | 久久视频免费看 | 日韩欧美国产不卡 | 欧美日韩精品一区 | 成人在线免费视频 | 区一区二在线观看 | 精品视频在线一区 | 91视视频在线观看入口直接观看 | 亚洲国产精品suv | 欧美在线一区二区三区四区 | 国内精品视频在线观看 | 精品一区在线免费观看 | 91视频.com | 九九伦理片 | 中文一级片| 日韩中文视频 | 日韩中文字幕在线不卡 | 色偷偷噜噜噜亚洲男人 | 中文字幕一区二区三区四区 | 免费观看黄色一级片 | 国产日韩欧美精品 | 青青草视频网 | 亚洲成人免费在线观看 | 亚洲国产精品一区 | 欧美一级免费黄色片 | 日韩精彩视频 | 日韩av最新网址 | 欧美一区二区三区精品免费 | 国产精品久久视频 | 国产在线网站 | 啪啪毛片| 成人在线免费电影 |