Percy Liang等人新研究:新必應等生成式搜索引擎可能沒那么好用
生成式搜索引擎通過直接生成對輸入查詢的回應以及在線引用來滿足用戶的信息需求(如下圖 1)?,F有的生成式搜索引擎正在迅速獲得用戶,微軟報告說 "大約三分之一的每日預覽用戶每天都在使用 Bing 聊天",Bing 聊天在其公開預覽的第一個月提供了 4500 萬次聊天。
生成式搜索引擎有可能改變人們在網上尋找信息的方式,但目前基于大語言模型的生成式搜索引擎生成的回復可能并不是準確的。但是鑒于它們的潛力和快速廣泛的應用,評估這些系統并更好地了解其潛在的局限性是至關重要的。
生成式搜索引擎一個值得信賴的先決條件是其可驗證性,每個生成的關于外部世界的描述都應該得到一組相關聯引用的充分支持,而且每個引文都應該支持根據其生成的相關描述??沈炞C性使讀者能夠輕松地檢查任何生成的描述是否得到其引用來源的支持。
研究者通過人工評估來審核四個流行的商業生成式搜索引擎(Bing Chat、NeevaAI、perplexity.ai 和 YouChat),讓它們完成一組信息查找任務(例如,來自 NaturalQuestions 的各種類型的歷史谷歌用戶查詢,來自 Reddit 的動態收集的開放式問題;例子見表 1)。
對于每個查詢 - 回答對,研究者以人工評價來衡量下面幾種維度:
1. 流暢性(生成的文本是否流暢和連貫);
2. 感知效用(生成的回應是否對查詢有幫助,信息量是否充足);
3. 引文召回率(生成的關于外部世界的陳述中,完全由其引文支持的比例);
4. 引文精確度(生成的支持其相關陳述的引文比例)。
一個值得信賴的生成式搜索引擎應該達到較高的引文召回率和精確度,表明其生成的引文是全面的(每個生成的描述都有引文的充分支持)和正確的(每個引文都支持其相關描述)。
研究人員發現,現有的生成式搜索引擎響應通常具有很高的流暢性以及明顯的感知效用,但經常回復無支持的陳述或包含不準確的引用(低引用召回率和精確度)。平均來說,在生成句子中僅有 51.5% 有完整的引文支持(引文召回率),只有 74.5% 的引文支持其相關句子(引文精確率)。
此外,引文召回率和精確度與流暢性和感知效用成反比 —— 看起來更有幫助的回應往往是那些沒有支持的描述或包含不準確的引文的回應。這種可信度的表象增加了現有生成式搜索引擎誤導用戶的可能性。在圖 1 的例子中,一個對詹姆斯 - 韋伯太空望遠鏡沒有什么背景知識的用戶很可能很難識別生成的回復中并沒有支持它的描述。
研究者假設這種逆向關聯的發生是因為一些生成式搜索引擎經常復制或改寫它們引用的網頁。雖然這樣的系統取得了較高的引用召回率和精確度,但是一些復制的語句可能與用戶的問題或生成的回復的其余部分無關,導致回復的流暢性和感知效用指標下降。
對流暢性、感知效用和可驗證性的人工評價
衡量流暢性和感知效用
為了測量響應的流暢性,研究人員向標注人員展示了用戶查詢、生成的回應并聲稱 "這些回應是流暢的、連貫的"。他們還要求標注人員在從 "非常不同意" 到 "非常同意" 的五點李克特量表上評定他們對該回應的認可程度。使用類似的過程來衡量感知效用,要求測試者評估他們對 “響應是對查詢的有用且信息豐富的回答” 這一說法的同意程度。
計算引文召回率
引文召回率是指完全被相關引文所支持的、值得驗證的陳述的比例(見下圖 2 的例子)。因此,計算引文召回率需要:
(1)確定回復中值得驗證的陳述;
(2)評估每個值得驗證的陳述是否有其相關引文的充分支持。
計算引用精確率
引用精確率是指在生成的所有引文中支持其相關陳述的比例(見圖 2 中的例子)。與召回率不同,引文精確率的概念在于獎勵系統準確引用的能力。如果一個生成的陳述引用了互聯網上的每個網頁,那么引文召回率可能會很高,但是引文精確率會很低(因為很多文章是不相關的,不支持其相關的陳述)。為了衡量回應 r 的引用精確率,研究者們給標注人員判斷每個引用 c_i,k 是否支持其相關陳述 s_i 提供了以下三個標準(例子見圖 1 中引用的網頁):
- 完全支持:陳述中的所有信息都得到了引文的支持。
- 部分支持:陳述中的一些信息得到了引文的支持,但其他部分沒有得到支持(例如,缺失或矛盾)。
- 沒有支持:引文不支持陳述的任何部分(例如,引用的網頁完全不相關或矛盾)。
結果和分析
流暢性和感知效用
幾個生成式搜索引擎生成的回復看起來是流暢的并且很有幫助。下表 3 顯示了這些搜索引擎對每個查詢分布的回復的流暢性。
表 4 展示了它們的感知效用。
引文召回率和精確度
表 5 是生成性搜索引擎在所評估的查詢分布中的引文召回率的相關數據。
下表 6 是搜索引擎在所評估的查詢分布中關于引文精確率的實驗數據。
現有的生成式搜索引擎往往不能很正確地對引文進行引用。當對所有系統進行平均計算時,只有 51.5% 的生成語句得到了引文的完整的支持(召回率),只有 74.5% 的引文完全支持其相關語句(精確度)。雖然生成的回答往往顯得信息量大且有用,但研究人員認為這些結果對于已經擁有數百萬用戶并正在迅速成為回答用戶查詢的主要工具的系統來說是不能接受的。
比較不同生成式搜索引擎之間的引文召回率和精確度,它們的引文召回率和精確率有很大的不同。平均而言,perplexity.ai 實現了最高的平均召回率(68.7),而其他三者的成績分別是:NeevaAI(67.6)、Bing Chat(58.7)、YouChat(11.1)。
從精確率來比較,Bing Chat 實現了最高的精確率(89.5),其次是 perplexity.ai(72.7)、NeevaAI(72.0)和 YouChat(63.6)。
可以得出,召回率最高和最低的系統之間有近 58% 的差距(perplexity.ai vs. YouChat),而精確率最高和最低的系統之間的差距近 25%(Bing Chat vs. YouChat)。
比較搜索引擎之間的不同查詢分布的引文召回率。修改評價查詢分布似乎比改變引用精確率更能影響引用召回率。例如,有長答案的 NaturalQuestions 查詢與非 NaturalQuestions 查詢之間的引用召回率差距接近 11%(分別為 58.5 與 47.8)。同樣,有短答案的 NaturalQuestions 查詢和無短答案的 NaturalQuestions 查詢之間的引用召回率差距接近 10%(有短答案的查詢為 63.4,只有長答案的查詢為 53.6,沒有長或短答案的查詢為 53.4)。
研究者假設引文召回率是由檢索到的網頁的相關性驅動的。在沒有檢索到直接回答用戶查詢的證據的情況下,系統會產生沒有引文證明的陳述,從而導致較低的召回率。例如,當對開放式的 AllSouls 論文問題進行評估時,生成式搜索引擎的引文召回率很低(平均召回率為 44.3),因為這些查詢通常在互聯網上沒有可提取的答案。
比較不同查詢分布的引文精確率,有長答案的 NaturalQuestions 查詢的精確率高于非 NaturalQuestions 分布(76.1 vs. 72.3)。在考察單個查詢分布的結果時,當對帶有段落答案類型的 NaturalQuestions 查詢進行評估時,生成式搜索引擎的精確率最高(當存在短答案時,精確率為 81.5,當只存在長答案時,精確度為 78.7)。另一方面,當對 AllSouls 開放式論文問題(67.8)和 davinci-debate 查詢(70.3)進行系統評估時,引文精確率是最低的。在 NaturalQuestions 子分布之間進行比較,有短答案的查詢的平均系統精確率(77.4)高于只有長答案(74.8)或沒有長答案(73.5)的查詢。
為了總結人工評估結果,表 7 列出了被評估系統的平均引文 F_1。圖 3 顯示了平均感知效用與平均引用 F_1 的對比。
現有的搜索引擎系統在引文召回率、引文精確率和感知效用之間都做了不同的權衡。
引文召回率和精率與精確率流暢性和感知效用成反比
研究者通過實驗發現,在現有的生成式搜索引擎中,引文召回率和精確率與流暢性和感知效用成反比。計算引文召回率和精確率與流暢性和感知效用之間的皮爾遜相關系數,發現兩者呈強負相關,特別是精確率顯示出更強的趨勢(表 8)。
例如,Bing Chat 達到了最高的精確度,但其流暢度和感知效用卻最低。相比之下,YouChat 的召回率和精確度最低,但它的回答得到了最高的流暢性和感知效用評價。
生成式搜索引擎經常復制或輕微改寫被引用網頁的內容
下表 9 列出了生成的陳述和從支持的網頁中提取的證據之間的相似度指標,當搜索引擎做出的陳述完全或部分得到其引文的支持時,它們往往直接從其引用的文章中復制或改寫轉述。