微軟、清華發(fā)布Agent創(chuàng)新方法,解決記憶、檢索大難題
微軟、清華的研究人員聯(lián)合發(fā)布了SECOM,一種專用于個性對話Agent的記憶構(gòu)建和檢索的創(chuàng)新方法。
研究人員在LOCOMO和Long-MT-Bench+兩個超復(fù)雜數(shù)據(jù)集上進(jìn)行了綜合評估。LOCOMO數(shù)據(jù)集的對話平均長度超過300輪,包含約9000個標(biāo)記的對話片段,是目前最長的對話數(shù)據(jù)集之一。Long-MT-Bench+則通過合并多個會話構(gòu)建更長的對話,平均包含約65輪對話。
結(jié)果顯示,LOCOMO數(shù)據(jù)集上,SECOM的GPT4-Score達(dá)到71.57,比全歷史方法高出17.42分,比輪次級記憶方法高出6.02分,比會話級記憶方法高出8.41分。
在Long-MT-Bench+數(shù)據(jù)集上,SECOM的GPT4-Score達(dá)到88.81,比全歷史方法高出24.96分,比輪次級記憶方法高出3.90分,比會話級記憶方法高出15.43分。
隨著大模型的飛速發(fā)展,已經(jīng)被廣泛應(yīng)用在Agent中。與傳統(tǒng)RPA、按鍵精靈不同的是,基于大模型的對話Agent能夠進(jìn)行更長時間的交互和主題。但這種長期、開放的對話也面臨巨大挑戰(zhàn),因為它需要能夠記住過去的事件和用戶偏好,以便生成連貫個人化回答或執(zhí)行超長自動化任務(wù)。
目前,大多數(shù)方法通過從對話歷史中構(gòu)建記憶庫,并在響應(yīng)生成時進(jìn)行檢索增強(qiáng)來實現(xiàn)這一目標(biāo),不過這些方法在記憶檢索準(zhǔn)確性和檢索內(nèi)容的語義質(zhì)量方面都存在局限性。
研究人員發(fā)現(xiàn),記憶單元的粒度對檢索增強(qiáng)響應(yīng)生成至關(guān)重要。傳統(tǒng)的輪次級、會話級以及基于總結(jié)的方法都存在不足。輪次級記憶過于細(xì)粒度,導(dǎo)致上下文片段化且不完整;
會話級記憶則過于粗粒度,包含大量無關(guān)信息;基于總結(jié)的方法在總結(jié)過程中會丟失關(guān)鍵細(xì)節(jié)。所以,發(fā)布了SECOM來解決這些難題。
零樣本分割方法
在SECOM 框架中,對話分割模型是其核心組件之一,主要負(fù)責(zé)將長期對話分解為語義連貫段落。這一過程并非簡單的文本切分,而是基于對對話內(nèi)容的深度語義理解,識別出對話中話題的轉(zhuǎn)換點,從而將對話自然地劃分為多個主題相關(guān)的單元。
能夠有效避免傳統(tǒng)輪次級或會話級記憶構(gòu)建方法中存在的問題,例如,輪次級記憶的碎片化和會話級記憶的冗余信息過多。
SECOM使用了GPT-4 作為其對話分割的骨干模型。可在零樣本學(xué)習(xí)的情況下對對話內(nèi)容進(jìn)行分析,并輸出分割后的段落。
這種分割方法有兩個巨大技術(shù)優(yōu)勢:首先,避免了傳統(tǒng)有監(jiān)督學(xué)習(xí)方法中需要大量標(biāo)注數(shù)據(jù)的限制。在對話分割任務(wù)中,獲取大量高質(zhì)量的標(biāo)注數(shù)據(jù)是非常困難的,因為話題轉(zhuǎn)換點的識別本身就具有一定的主觀性,即使是人類標(biāo)注者也難以達(dá)成完全一致。
而零樣本分割方法則無需依賴標(biāo)注數(shù)據(jù),直接利用模型的預(yù)訓(xùn)練知識進(jìn)行分割,大大降低了數(shù)據(jù)準(zhǔn)備的成本和難度。
此外,零樣本分割能夠更好地適應(yīng)開放域的對話場景。由于沒有受到特定領(lǐng)域或特定數(shù)據(jù)集的限制,GPT-4 能夠憑借其廣泛的知識和語言理解能力,對各種類型的對話進(jìn)行有效的分割。無論是日常閑聊、學(xué)術(shù)討論還是專業(yè)咨詢,GPT-4 都能夠識別出對話中的語義邊界,將對話分割成連貫的段落。
使得 SECOM 的對話分割模型能夠廣泛應(yīng)用于各種不同的對話場景,而無需針對每個場景單獨(dú)訓(xùn)練模型。
自反思機(jī)制
為了進(jìn)一步提升分割的準(zhǔn)確性和一致性,SECOM引入了另外一個重要模塊——自反思機(jī)制。
SECOM會首先以零樣本的方式對一批對話數(shù)據(jù)進(jìn)行分割,然后根據(jù)標(biāo)注數(shù)據(jù)中的真實分割結(jié)果,識別出分割錯誤的部分。然后會分析這些錯誤,反思其原因,并據(jù)此調(diào)整分割策略。
這一過程有點類似于人類在學(xué)習(xí)過程中的自我反思和改進(jìn)。通過不斷地分析錯誤、總結(jié)經(jīng)驗并調(diào)整方法,模型能夠逐步提高其分割的準(zhǔn)確性。這種自反思機(jī)制不僅能夠提升分割的準(zhǔn)確性,還能夠使模型的分割結(jié)果更符合人類標(biāo)注者的偏好。換句話說,能使模型的分割行為更貼近人類對對話結(jié)構(gòu)的理解和劃分方式。
同時自反思機(jī)制的引入還帶來了一個額外的好處,模型能夠在少量標(biāo)注數(shù)據(jù)的情況下快速適應(yīng)新的領(lǐng)域或任務(wù)。
即使只有少量的標(biāo)注樣本,模型也能夠通過自我反思和調(diào)整,快速學(xué)習(xí)到該領(lǐng)域或任務(wù)中的對話結(jié)構(gòu)特點,從而提高分割性能。使得SECOM在實際應(yīng)用中具有更強(qiáng)的適應(yīng)性和可擴(kuò)展性。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
