四款「ChatGPT搜索」全面對比!斯坦福華人博士純手工標注:新必應流暢度最低,近一半句子都沒引用
ChatGPT發布后不久,微軟成功上車發布「新必應」,不僅股價大漲,甚至還大有取代谷歌,開啟搜索引擎新時代的架勢。
不過新必應真是大型語言模型的正確玩法嗎?生成的答案真的對用戶有用嗎?句子里標的引文可信度有多少?
最近,斯坦福的研究人員從不同的來源收集了大量的用戶查詢,對當下四個大火的生成性搜索引擎,新必應(Bing Chat),NeevaAI,perplexity.ai和 YouChat進行了人工評估。
論文鏈接:https://arxiv.org/pdf/2304.09848.pdf
實驗結果發現,來自現有生成搜索引擎的回復流暢且信息量大,但經常包含沒有證據的陳述和不準確的引用。
平均來說,只有51.5%的引用可以完全支撐生成的句子,只有74.5% 的引用可以作為相關句子的證據支持。
研究人員認為,對于那些可能成為信息搜尋用戶主要工具的系統來說,這個結果實在是過低了,特別是考慮到有些句子只是貌似可信的話,生成式搜索引擎仍然需要進一步優化。
個人主頁:https://cs.stanford.edu/~nfliu/
第一作者Nelson Liu是斯坦福大學自然語言處理組的四年級博士生,導師為Percy Liang,本科畢業于華盛頓大學,主要研究方向為構建實用的NLP系統,尤其是用于信息查找的應用程序。
別輕信生成式搜索引擎
2023年3月,微軟報告說「大約三分之一的每日預覽用戶每天都在使用[Bing]聊天」,并且Bing聊天在其公開預覽的第一個月提供了4500萬次聊天,也就是說,把大型語言模型融合進搜索引擎是非常有市場的,極有可能改變互聯網的搜索入口。
但目前來看,現有的基于大型語言模型技術的生成式搜索引擎仍然存在準確率不高的問題,但具體的準確率仍然沒有得到全面評估,進而也無法了解到新型搜索引擎的局限之處。
可驗證性(verifiability)是提升搜索引擎可信度的關鍵,即為生成答案中的每一句話都提供引文的外部鏈接來作為證據支撐,可以使用戶更容易驗證答案的準確程度。
研究人員通過收集不同類型、來源的問題,在四個商業生成式搜索引擎(Bing Chat, NeevaAI, perplexity.ai, YouChat)上進行人工評估。
評估指標主要包括流暢性,即生成的文本是否連貫;有用性,即搜索引擎的回復對于用戶來說是否有幫助,以及答案中的信息是否能夠解決問題;引用召回,即生成的關于外部網站的句子中包含引用支持的比例;引用精度,即生成的引用支持其相關句子的比例。
流暢性(fluency)
同時展示用戶查詢、生成的回復以及聲明「該回復是流暢且語義連貫的」,標注人員以五分制Likert量表對數據進行打分。
有用性(perceived utility)
與流暢性類似,標注人員需要評定他們對「該回復是對用戶查詢來說是有用且有信息量的 」這一說法的同意程度。
引用召回(citation recall)
引用召回率是指由其相關引文完全支持的、值得驗證的句子的比例,所以該指標的計算需要確定回復中值得驗證的句子,以及評估每個值得驗證的句子能夠被相關引文支持。
在「識別值得驗證的句子」過程中,研究人員認為關于外部世界的每一個生成的句子都是值得驗證的,即使是那些可能看起來很明顯、微不足道的常識,因為對于某些讀者來說似乎是明顯的「常識」,但其實可能并不正確。
搜索引擎系統的目標應該是為所有生成的關于外部世界的句子提供參考來源,使讀者能夠輕松地驗證生成的回復中的任何敘述,不能為了簡單而犧牲可驗證性。
所以實際上標注人員對所有生成的句子都進行驗證,除了那些以系統為第一人稱的回復,如「作為一個語言模型,我沒有能力做...」,或是對用戶的提問,如「你想了解更多嗎?」等。
評估「一個值得驗證的陳述是否得到其相關引文的充分支持」可以基于歸因已識別來源(AIS, attributable to identified sources)評估框架,標注人員進行二元標注,即如果一個普通的聽眾認可「基于引用的網頁,可以得出...」,那引文即可完全支持該回復。
引用精確率
為了衡量引用的精確率,標注人員需要判斷每個引用是否對其相關的句子提供了全部、部分或無關支持。
完全支持(full support):句子中的所有信息都得到了引文的支持。
部分支持(Partial support):句子中的一些信息得到了引文的支持,但其他部分可能存在缺失或矛盾。
無關支持(No support):如引用的網頁完全不相關或相互矛盾。
對于有多個相關引文的句子,還會額外要求標注人員使用AIS評估框架判斷所有相關引文網頁作為一個整體是否為該句子提供了充分的支持(二元判斷)。
實驗結果
在流暢性和有用性評估中,可以看到各個搜索引擎都能夠生成非常流暢且有用的回復。
在具體的搜索引擎評估中,可以看到看到Bing Chat的流暢性/有用性評分最低(4.40/4.34),其次是NeevaAI(4.43/4.48),perplexity.ai(4.51/4.56),以及YouChat(4.59/4.62)。
在不同類別的用戶查詢中,可以看到較短的提取性問題通常比長問題要更流暢,通常只回答事實性知識即可;一些有難度的問題通常需要對不同的表格或網頁進行匯總,合成過程會降低整體的流暢性。
在引文評估中,可以看到現有的生成式搜索引擎往往不能全面或正確地引用網頁,平均只有51.5%的生成句子得到了引文的完全支持(召回率),只有74.5%的引文完全支持其相關句子(精確度)。
這個數值來說對于已經擁有數百萬用戶的搜索引擎系統來說是不可接受的,特別是在生成回復往往信息量比較大的情況下。
并且不同的生成式搜索引擎之間的引文召回率和精確度有很大差異,其中perplexity.ai實現了最高的召回率(68.7),而NeevaAI(67.6)、Bing Chat(58.7)和YouChat(11.1)較低。
另一方面,Bing Chat實現了最高的精確度(89.5),其次是perplexity.ai(72.7)、NeevaAI(72.0)和YouChat(63.6)
在不同的用戶查詢中,有長答案的NaturalQuestions查詢和非NaturalQuestions查詢之間的引用召回率差距接近11%(分別為58.5和47.8);
同樣,有短答案的NaturalQuestions查詢和無短答案的NaturalQuestions查詢之間的引用召回率差距接近10%(有短答案的查詢為63.4,只有長答案的查詢為53.6,而無長或短答案的查詢為53.4)。
在沒有網頁支持的問題中,引用率就會較低,例如對開放式的AllSouls論文問題進行評估時,生成式搜索引擎在引文召回率方面只有44.3