快手基礎(chǔ)大模型團(tuán)隊(duì) 7 篇論文入選人工智能領(lǐng)域頂會(huì) ACL 2025
國(guó)際計(jì)算語言學(xué)年會(huì)(Annual Meeting of the Association for Computational Linguistics,簡(jiǎn)稱 ACL)是由國(guó)際計(jì)算語言學(xué)協(xié)會(huì)(Association for Computational Linguistics)主辦的學(xué)術(shù)盛會(huì),每年舉辦一次。作為計(jì)算語言學(xué)和自然語言處理領(lǐng)域最具影響力的會(huì)議之一,第 63 屆 ACL 即將于 7 月 27 日至 8 月 1 日在奧地利首都維也納隆重舉辦。近日,ACL 正式公布了論文錄用名單,快手基礎(chǔ)大模型團(tuán)隊(duì)?wèi){借其在人工智能領(lǐng)域的深厚積累,成功入選 7 篇論文。這些研究涵蓋了模型訓(xùn)練階段的對(duì)齊偏差、推理階段的安全防護(hù)、解碼策略和可靠性、視頻-時(shí)序理解以及評(píng)測(cè)基準(zhǔn)等大模型前沿領(lǐng)域的成果。
論文 01:TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos
| 類型:ACL25 Main
| 論文鏈接:??https://friedrichor.github.io/projects/TUNA/??
| 論文簡(jiǎn)介:視頻獨(dú)特之處在于它整合了時(shí)序元素,包括鏡頭、場(chǎng)景、動(dòng)作和屬性,以及它們隨時(shí)間推移的動(dòng)態(tài)關(guān)系。然而,現(xiàn)有的視頻理解基準(zhǔn)測(cè)試往往將這些特性分開處理,或僅僅關(guān)注特定方面,忽視了視頻內(nèi)容的整體性。為了解決這個(gè)問題,我們提出了一個(gè)面向時(shí)序的基準(zhǔn)測(cè)試 TUNA,用于對(duì)密集動(dòng)態(tài)視頻進(jìn)行細(xì)粒度理解,包含兩個(gè)互補(bǔ)的任務(wù):視頻描述和問答。我們的基準(zhǔn)測(cè)試具有多樣化的視頻場(chǎng)景和動(dòng)態(tài)特征,并配備了可解釋且穩(wěn)健的評(píng)估標(biāo)準(zhǔn)。我們?cè)?TUNA 上評(píng)估了一些領(lǐng)先的模型,從不同維度提供了細(xì)粒度的性能評(píng)估。這項(xiàng)評(píng)估揭示了視頻時(shí)序理解中的關(guān)鍵挑戰(zhàn),例如有限的動(dòng)作描述能力、不充分的多主體理解,以及對(duì)鏡頭運(yùn)動(dòng)的不敏感性,為改進(jìn)視頻理解模型提供了寶貴的見解。
論文 02:Root Defense Strategies: Ensuring Safety of LLM at the Decoding Level
| 類型:ACL25 Main
| 論文鏈接:??https://arxiv.org/pdf/2410.06809??
| 論文簡(jiǎn)介:隨著大語言模型(LLMs)的不斷發(fā)展,由于錯(cuò)誤或惡意提示導(dǎo)致有害輸出的風(fēng)險(xiǎn)也在增加。雖然現(xiàn)有方法能有效應(yīng)對(duì)越獄(jailbreak)風(fēng)險(xiǎn),但它們普遍存在兩個(gè)關(guān)鍵限制:1) 僅從預(yù)填充級(jí)別判斷有害輸出,未充分利用模型解碼過程中的輸出信息,導(dǎo)致效果和魯棒性相對(duì)較低。2) 基于單一評(píng)估拒絕潛在有害輸出會(huì)顯著損害模型的有用性。為解決以上問題,我們深入研究了 LLMs 識(shí)別有害輸出的能力,揭示并量化了它們?cè)u(píng)估先前令牌危險(xiǎn)性的能力。受試驗(yàn)結(jié)果啟發(fā),我們?cè)O(shè)計(jì)了一種在解碼層面的強(qiáng)健防御機(jī)制。我們的創(chuàng)新解碼導(dǎo)向、逐步防御架構(gòu)直接糾正有害查詢的輸出,而非簡(jiǎn)單拒絕它們。我們引入推測(cè)性解碼技術(shù)來提高可用性并促進(jìn)部署,以提升安全解碼速度。廣泛的實(shí)驗(yàn)表明,我們的方法在不影響推理速度的前提下提高了模型安全性。值得注意的是,與現(xiàn)有方法相比,我們的方法利用模型辨別有害信息的能力,同時(shí)保持了較高的有用性。
論文 03:Towards Reward Fairness in RLHF: From a Resource Allocation Perspective
| 類型:ACL25 Main
| 論文鏈接:??https://arxiv.org/pdf/2505.23349??
| 論文簡(jiǎn)介:獎(jiǎng)勵(lì)函數(shù)是人類偏好的代理,在“來自人類反饋的強(qiáng)化學(xué)習(xí)”(Reinforcement Learning from Human Feedback,簡(jiǎn)稱 RLHF)中起著關(guān)鍵作用。然而,當(dāng)這些獎(jiǎng)勵(lì)只是不完美的代理,并表現(xiàn)出如長(zhǎng)度偏好等偏差時(shí),可能會(huì)對(duì)大語言模型(LLM)的對(duì)齊效果產(chǎn)生不利影響。本文將獎(jiǎng)勵(lì)中的各種偏差統(tǒng)稱為“獎(jiǎng)勵(lì)不公”(Reward Unfairness)問題?;诖耍覀儗⑵脤W(xué)習(xí)建模為一個(gè)資源分配問題,把獎(jiǎng)勵(lì)看作是需要分配的資源,同時(shí)在分配中權(quán)衡效用與公平性之間的取舍。我們提出了兩種實(shí)現(xiàn)獎(jiǎng)勵(lì)公平的方法:公平性正則項(xiàng)(Fairness Regularization)和公平性系數(shù)(Fairness Coefficient)。我們將這兩種方法分別應(yīng)用于驗(yàn)證階段和強(qiáng)化學(xué)習(xí)階段,從而分別獲得一個(gè)公平獎(jiǎng)勵(lì)模型和一個(gè)策略模型。在兩個(gè)應(yīng)用場(chǎng)景下的實(shí)驗(yàn)結(jié)果表明,我們的方法能夠以更加公平的方式,使 LLM 更好地對(duì)齊于人類偏好。
論文 04:HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models
| 類型:ACL25 Main
| 論文鏈接:??https://arxiv.org/abs/2502.20811??
| 論文簡(jiǎn)介:多模態(tài)大型語言模型在視頻理解方面取得了長(zhǎng)足進(jìn)步。然而,由于缺乏高質(zhì)量的數(shù)據(jù),它們?cè)谏婕叭祟悇?dòng)作的視頻上的表現(xiàn)仍然受到限制。更進(jìn)一步,我們發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)的表述形式對(duì)模型的理解效果有很大的影響。為了解決這個(gè)問題,我們引入了一個(gè)兩階段的數(shù)據(jù)標(biāo)注流程。首先,我們?cè)O(shè)計(jì)策略從互聯(lián)網(wǎng)上積累具有清晰人類動(dòng)作的視頻。其次,我們將視頻標(biāo)注為標(biāo)準(zhǔn)化的描述格式,該格式使用人類屬性來區(qū)分個(gè)體,并按時(shí)間順序詳細(xì)描述他們的動(dòng)作和互動(dòng)。通過該流程,我們整理了兩個(gè)數(shù)據(jù)集,分別是 HAICTrain 和 HAICBench。HAICTrain 包含由我們數(shù)據(jù)鏈路生成并經(jīng)過訓(xùn)練驗(yàn)證的 126,000 個(gè)視頻-描述對(duì)。同時(shí),HAICBench 包含 500 個(gè)手動(dòng)標(biāo)注的視頻-描述對(duì)和 1,400 個(gè)問答對(duì),用于全面評(píng)估人類動(dòng)作理解能力。實(shí)驗(yàn)結(jié)果表明,使用 HAICTrain 進(jìn)行訓(xùn)練不僅顯著提升了多個(gè)公開基準(zhǔn)測(cè)試中人類的理解能力,而且還能提升文生視頻的視頻重建質(zhì)量。
論文 05:GODBench: A Benchmark for Multimodal Large Language Models in Video Comment Art
| 類型:ACL25 Main
| 論文鏈接:??https://stan-lei.github.io/KwaiMM-Dialogue/paper3-godbench.html??
| 論文簡(jiǎn)介:視頻評(píng)論藝術(shù)通過提供蘊(yùn)含幽默、諷刺或情感共鳴的創(chuàng)意內(nèi)容,顯著提升了用戶參與度,這要求對(duì)文化及語境細(xì)微差異具備全面深入的理解。盡管多模態(tài)大語言模型(MLLMs)與思維鏈(CoT)在 STEM 任務(wù)(如數(shù)學(xué)與編程)中已展現(xiàn)出強(qiáng)大的推理能力,但在生成具有共鳴的笑話與深刻諷刺等創(chuàng)造性表達(dá)方面仍存在局限。此外,現(xiàn)有基準(zhǔn)測(cè)試因模態(tài)單一與類別覆蓋不足,制約了對(duì)視頻評(píng)論藝術(shù)創(chuàng)作中綜合創(chuàng)造力的探索。針對(duì)這些缺陷,我們推出 GODBench——一個(gè)融合視頻與文本模態(tài)的全新基準(zhǔn)測(cè)試,旨在系統(tǒng)評(píng)估 MLLMs 生成視頻評(píng)論藝術(shù)的能力。受物理學(xué)中波傳播模式的啟發(fā),我們進(jìn)一步提出漣漪思維(Ripple of Thought, RoT)——一種多步推理框架,專門設(shè)計(jì)用于增強(qiáng) MLLMs 的創(chuàng)造力。大量實(shí)驗(yàn)表明,現(xiàn)有 MLLMs 及 CoT 方法在理解與生成創(chuàng)意視頻評(píng)論方面仍面臨重大挑戰(zhàn)。相比之下,RoT 為提升創(chuàng)意內(nèi)容創(chuàng)作提供了有效路徑,其推動(dòng) MLLM 創(chuàng)造力實(shí)現(xiàn)實(shí)質(zhì)性突破的潛力值得關(guān)注。
論文 06:Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucinations in Large Vision-Language Models
| 類型:ACL25 Findings
| 論文鏈接:??https://arxiv.org/pdf/2505.17061v1??
| 論文簡(jiǎn)介:大型視覺語言模型在各種視覺任務(wù)中展現(xiàn)出令人印象深刻的能力,但它們?nèi)匀皇艿交糜X這一持續(xù)挑戰(zhàn)的阻礙。為了解決這一關(guān)鍵問題,我們提出了混合解碼 (MoD),這是一種用于緩解幻覺的新穎方法,它通過評(píng)估模型對(duì)圖像標(biāo)記的注意力的正確性來動(dòng)態(tài)調(diào)整解碼策略。具體而言,MoD 測(cè)量由原始圖像標(biāo)記生成的輸出與由模型關(guān)注的圖像標(biāo)記生成的輸出之間的一致性,以區(qū)分上述正確性。如果輸出一致,則表明注意力正確,MoD 會(huì)采用互補(bǔ)策略來放大關(guān)鍵信息。相反,如果輸出不一致,則表明注意力錯(cuò)誤,MoD 會(huì)采用對(duì)比策略來抑制誤導(dǎo)性信息。大量實(shí)驗(yàn)表明,MoD 在多個(gè)主流基準(zhǔn)測(cè)試中的表現(xiàn)顯著優(yōu)于現(xiàn)有的解碼方法,能夠有效緩解 LVLM 中的幻覺。
論文 07:VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation
| 類型:ACL25 Findings
| 論文鏈接:??https://arxiv.org/pdf/2502.12782??
| 論文簡(jiǎn)介:可控文本轉(zhuǎn)視頻 (T2V) 模型的訓(xùn)練高度依賴于視頻與文本描述的匹配,但現(xiàn)有研究鮮有將視頻描述評(píng)估與 T2V 生成評(píng)估聯(lián)系起來。本文提出了 VidCapBench,這是一種專為 T2V 生成設(shè)計(jì)的視頻描述評(píng)估方案,與任何特定描述格式無關(guān)。VidCapBench 采用數(shù)據(jù)標(biāo)注流程,結(jié)合專家模型標(biāo)注和人工細(xì)化,將每個(gè)采集到的視頻與涵蓋視頻美學(xué)、內(nèi)容、運(yùn)動(dòng)和物理定律的關(guān)鍵信息關(guān)聯(lián)起來。然后,VidCapBench 將這些關(guān)鍵信息屬性劃分為可自動(dòng)評(píng)估和可手動(dòng)評(píng)估的子集,以滿足敏捷開發(fā)的快速評(píng)估需求和全面驗(yàn)證的準(zhǔn)確性要求。通過評(píng)估眾多最先進(jìn)的描述模型,我們證明了 VidCapBench 與現(xiàn)有視頻描述評(píng)估方法相比具有卓越的穩(wěn)定性和全面性,確保評(píng)測(cè)的是視頻描述的質(zhì)量而不是裁判模型的評(píng)價(jià)能力。使用現(xiàn)成的 T2V 模型進(jìn)行驗(yàn)證,發(fā)現(xiàn) VidCapBench 上的得分與 T2V 質(zhì)量評(píng)估指標(biāo)之間存在顯著的正相關(guān)性,這表明 VidCapBench 可以為訓(xùn)練 T2V 模型提供有價(jià)值的指導(dǎo)。
結(jié)語
作為一家以人工智能為核心驅(qū)動(dòng)和技木依托的科技公司,快手致力于不斷深化研發(fā)投入,將技術(shù)作為強(qiáng)勁引擎,驅(qū)動(dòng)業(yè)務(wù)的迅猛增長(zhǎng)。同時(shí),快手將在人工智能領(lǐng)域持續(xù)探索,將前沿科技在業(yè)務(wù)場(chǎng)景中落地應(yīng)用。欲了解更多關(guān)于論文的詳盡內(nèi)容及深度解讀,敬請(qǐng)密切關(guān)注快手技術(shù)公眾號(hào)的后續(xù)推文。
