閑來無事，我測了測國產大模型的RAG能力

作者：新智元 2025-01-27 12:41:00

人工智能新聞

RAG正重塑大模型的江湖，成為新的「智能引擎」。

最近，AI界被推理模型刷屏了。

國內各家的推理模型，在新年到來之際不斷刷新我們的認知。不過，當我們在實際應用中考量大模型，衡量好不好用的標準，就絕不僅僅局限于其性能和規模了。

尤其是對于那些請求復雜、專業性強，以及一些小眾的長尾需求，此時單純的大模型并不是最優解。而大模型和搜索的聯合優化，就成了提升系統實際效能的關鍵，尤其是在中文互聯網、企業服務、政務醫療等場景中。

在未來，AI系統將絕不僅僅是單純的大模型，而是推理模型與搜索的深度結合而成的多元復雜系統。

所以，在當今的國產大模型選手中，誰在實際搜索中的表現最優，能為用戶提供最精準的個性化服務呢？

接下來，讓我們呈上各種足夠難度、足夠刁鉆的問題，讓它們開展一場實測大pk！

國產大模型，誰最懂我？

首先，對于大模型來說最為基礎一個要求——理解用戶到底想問什么。

用戶意圖

問題一：傅里葉變化的時候，函數應該具有頻率、相位、幅度三個重要參數，為什么其中的相位在頻域圖上是沒有的。

在這個問題上，模型A首先解釋了什么是「頻域圖」——通常是指幅度譜或功率譜，以及題干中提到的三個重要參數的含義。

隨后解釋道：「相位涉及到信號中不同頻率成分之間的時間延遲或超前關系，這種關系在二維的幅度譜圖中難以直接表示。」

回答正確。

模型B雖然講了傅里葉變換的原理、頻域圖的常規表示方法，以及相位信息的重要性，但沒有解答用戶的核心訴求——為什么頻域圖上沒有相位。

回答錯誤。

模型C從相位信息的復雜性、幅度信息的直觀性等方面進行分析之后，得出結論「由于其復雜性和計算誤差，以及頻域圖的簡化需求，相位信息通常不會在頻域圖中直接展示」。

回答正確。

事實性/時效性

其次，同樣也是對模型最為基礎的要求之一——答案給的對不對。

問題二：我爸爸本來應該今年八月份退休，現在更改政策后，應該什么時候退休？

在這道題中，模型不僅要找到對應的新政策，而且還需要理解其中的內容并根據用戶的需求進行推理。

可以看到，模型A先是列出了政策中的規定，并在一番計算之后，給出正確的時間——2025年10月。

甚至還貼心地給出了一些注意事項。

相比之下，模型B的推斷過程含糊不清，并且也沒有給出正確的答案。

模型C的過程清晰，回答正確。

問題三：虞書欣最近播出的電視劇是什么名字？什么時候播的

再來一個更具時效性的考驗。

模型A既答對了作品名稱和播出時間，也對劇情進行了介紹。

模型B的回答還停留在2023年，時效性差了一些。

模型C給出了正確的作品和時間，但沒有加入相關介紹，內容豐富度稍弱。

專業性/豐富性

除了一些簡單的查詢之外，我們在實際應用中，往往會遇到更多涉及現實細節的問題。

這時候我們所期待的，就不止是粗略的呈現，而是模型在提供基礎答案的前提下，能具備更有價值的增益信息。

問題四：我的獎學金有2萬塊，可以同時買iPhone16pro max1tb和AirPods4嗎？

模型A在一番檢索之后發現AirPods 4有兩個版本，于是分別計算出了對應的總價。

相比之下，模型B則只給出了標準版的價格。

而模型C，甚至給出了前后矛盾的答案——開篇說同時購買是「比較困難」的，文末又改口說是「沒有問題」的。

問題五：我需要支付一定報酬找人編寫一個算法，去哪個網站？

對于這個問題，模型A在參考了搜索到信息后，給出了相應的幾大網站，還一一附上了網站地址。

相比之下，模型B和C并沒有給出網站的鏈接。

此時，如果用戶想要了解更具體的信息，就不得不自己手動復制到瀏覽器里，再去搜索一遍才行。

有態度

生活中，我們還會提出各種各樣的開放性問題，比如iPhone 16和iPhone 15買哪個更劃算。

在面對推薦、對比、評價、觀點這類問題時，對AI提出了比較高的要求。

首先，它需要給出一個確定性的答復，必須要客觀公正，不能一碗水端不平。

然后，還需要給出詳細的解釋以及進一步的說明。

問題六：在電影《飛馳人生1》中，張弛在重返賽場的融資過程中經歷了哪些關鍵事件，比賽最后張弛和林臻東成績是怎么樣的？

這里，模型A首先做了一個觀點性總結——比賽結果頗具戲劇性。

然后，它分別就張弛重返賽場的融資過程和比賽結果，給出了詳細的分解介紹。

再來看模型D，在比賽結果回復中，缺少了事實性回答，沒有給出具體的成績。

此外，第4點面對外界質疑的內容，也不屬于融資的關鍵過程。

問題七：微軟和亞馬遜的大模型研發在2023年哪個對生態系統影響更大？

對于這個問題，模型A直接把結論前置，觀點鮮明，態度明確。

繼續測試模型B和C。

沒想到，這兩位都是「端水大師」，要么表示「難以評判」；要么是分析了出部分結果，但不敢給出最終結論。

模型D甚至連分析都不想分析，直接上「答案」——兩者在各自領域的努力共同推動了大模型生態系統的繁榮與發展。

從測試中不難看出，模型A在事實性、時效性、豐富性、專業性和結構化上，表現都最為出色。

猜猜它是誰？

接下來，我們就來揭曉答案——文心一言4.0 Turbo。

上面這些場景所考驗的，就是模型在RAG（Retrieval-Augmented Generation）檢索增強生成方面的能力。

換句話說就是，模型能不能將檢索和生成有效地結合起來——先用搜索技術實時獲取外部知識，再通過大模型來生成高質量內容，從而彌補兩者的短板。

RAG這個概念，最早在2020年的一篇劃時代論文中首次提出，它巧妙地融合了LLM和信息檢索的能力。

論文地址：https://arxiv.org/pdf/2005.11401

當需要生成文本、回答問題時，它會先從海量文檔中精準檢索相關信息，繼而利用這些信息指導文本生成，顯著提升了輸出的質量和準確性。

其中，檢索是方法，生成才是目的。

通過這一方法，能夠極大地緩解大模型「幻覺」，讓垂直細分場景的知識得到及時更新。

最重要的是，用戶還可以輕松追溯信息來源，能夠解決在回答中缺乏透明度的問題。

由此，檢索質量的優劣在很大程度上影響了，生成模型最終生成結果的優劣。

「撒手锏」：檢索增強技術

道理是這個道理，但想要將大模型和檢索高質量地結合起來，可不簡單。

一個重要原因在于，人類易讀的搜索結果內容，并不適合給大模型。

因此，在RAG場景下，就需要尋找一種架構解決方案，能同時高效支持搜索業務場景和大模型生成場景。

具體來說，一方面我們希望能夠利用百度檢索排序的優質策略，保證數據的高相關、高時效和多樣性，為大模型提供完整的全文結構化內容。

另一方面，又希望用更低的檢索成本、更高的時延要求給大模型的內容精細化組織預留足夠的空間。

這種「既要又要」的需求，該怎樣滿足呢？

當然這一切的前提是文心大模型本身就具備了很強的檢索增強能力，這在文心一言最早推出的時候就成為其特色。

兩年時間過去了，檢索增強的價值，從百度最早推出到現在已經成為業界共識。百度搜索增強技術深度融合大模型能力和搜索系統，構建了「理解-檢索-生成」的協同優化技術。

簡單來說，「理解」就是拆解知識點，充分理解用戶的需求；「檢索」就是找到最合適的信息，然后進行搜索排序優化，并將搜索返回的異構信息統一表示，再送給大模型；「生成」階段會綜合不同來源的信息做出判斷，并基于大模型邏輯推理能力，解決信息沖突等問題，最后生成準確率高、時效性好的答案。

可以說，百度的檢索增強技術提升了大模型技術及應用的效果。

RAG不僅是技術，更是智能進化的里程碑

2024百度世界大會上，李彥宏曾表示，RAG已從百度特色逐漸成為了行業共識。

過去兩年，我們見證了RAG，為整個大模型領域帶去翻天覆地的變化。

RAG讓LLM真正走向了實際場景落地。

而在RAG打開模型應用階段，同樣面臨著諸多挑戰，比如需要構建測積集、評估結果準確性、上下文理解等問題。

在這些方面，百度的技術優勢與積累不得不說，凸現出來了。首先，在數據方面，過去二十余年，百度的搜索業務已覆蓋了海量中文數據，成為其在中文語言處理領域不可替代的優勢。

以文心一言為例，其訓練數據包括了萬億級網頁數據、數十億搜索數據、圖片數據，百億級語音日均調用數據，以及5500億事實知識圖譜。

不僅如此，百度的知識庫猶如一個不斷進化的有機體。每秒鐘，來自專業互聯網和專業數據庫的實時信息都能被智能整合，確保了數據的時效性和準確性。

此外，作為產品矩陣遍布各行業的頭部公司，它還為不同行業提供深度定制的智能解決方案。每一個垂直賽道，都成為精準滲透的戰略高地。憑借獨特技術積累和生態優勢，他們正通過RAG去構建連接技術與場景的橋梁。

不得不說，在AI原生搜索的時代，誰能更準確、更智能檢索和生成知識，誰就掌握了智能的制高點。

RAG不僅是技術，更是智能進化的里程碑。

責任編輯：張燕妮來源：新智元

模型數據技術

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看