成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

閑來無事,我測了測國產大模型的RAG能力

人工智能 新聞
RAG正重塑大模型的江湖,成為新的「智能引擎」。

最近,AI界被推理模型刷屏了。

國內各家的推理模型,在新年到來之際不斷刷新我們的認知。不過,當我們在實際應用中考量大模型,衡量好不好用的標準,就絕不僅僅局限于其性能和規模了。

尤其是對于那些請求復雜、專業性強,以及一些小眾的長尾需求,此時單純的大模型并不是最優解。而大模型和搜索的聯合優化,就成了提升系統實際效能的關鍵,尤其是在中文互聯網、企業服務、政務醫療等場景中。

在未來,AI系統將絕不僅僅是單純的大模型,而是推理模型與搜索的深度結合而成的多元復雜系統。

所以,在當今的國產大模型選手中,誰在實際搜索中的表現最優,能為用戶提供最精準的個性化服務呢?

接下來,讓我們呈上各種足夠難度、足夠刁鉆的問題,讓它們開展一場實測大pk!

國產大模型,誰最懂我?

首先,對于大模型來說最為基礎一個要求——理解用戶到底想問什么。

用戶意圖

問題一:傅里葉變化的時候,函數應該具有頻率、相位、幅度三個重要參數,為什么其中的相位在頻域圖上是沒有的。

在這個問題上,模型A首先解釋了什么是「頻域圖」——通常是指幅度譜或功率譜,以及題干中提到的三個重要參數的含義。

隨后解釋道:「相位涉及到信號中不同頻率成分之間的時間延遲或超前關系,這種關系在二維的幅度譜圖中難以直接表示。」

回答正確。

圖片

模型B雖然講了傅里葉變換的原理、頻域圖的常規表示方法,以及相位信息的重要性,但沒有解答用戶的核心訴求——為什么頻域圖上沒有相位。

回答錯誤。

圖片

模型C從相位信息的復雜性、幅度信息的直觀性等方面進行分析之后,得出結論「由于其復雜性和計算誤差,以及頻域圖的簡化需求,相位信息通常不會在頻域圖中直接展示」。

回答正確。

圖片

事實性/時效性

其次,同樣也是對模型最為基礎的要求之一——答案給的對不對。

問題二:我爸爸本來應該今年八月份退休,現在更改政策后,應該什么時候退休?

在這道題中,模型不僅要找到對應的新政策,而且還需要理解其中的內容并根據用戶的需求進行推理。

可以看到,模型A先是列出了政策中的規定,并在一番計算之后,給出正確的時間——2025年10月。

甚至還貼心地給出了一些注意事項。

圖片

相比之下,模型B的推斷過程含糊不清,并且也沒有給出正確的答案。

圖片

模型C的過程清晰,回答正確。

圖片

問題三:虞書欣最近播出的電視劇是什么名字?什么時候播的

再來一個更具時效性的考驗。

模型A既答對了作品名稱和播出時間,也對劇情進行了介紹。

圖片

模型B的回答還停留在2023年,時效性差了一些。

圖片

模型C給出了正確的作品和時間,但沒有加入相關介紹,內容豐富度稍弱。

圖片

專業性/豐富性

除了一些簡單的查詢之外,我們在實際應用中,往往會遇到更多涉及現實細節的問題。

這時候我們所期待的,就不止是粗略的呈現,而是模型在提供基礎答案的前提下,能具備更有價值的增益信息。

問題四:我的獎學金有2萬塊,可以同時買iPhone16pro max1tb和AirPods4嗎?

模型A在一番檢索之后發現AirPods 4有兩個版本,于是分別計算出了對應的總價。

圖片

相比之下, 模型B則只給出了標準版的價格。

圖片

而模型C,甚至給出了前后矛盾的答案——開篇說同時購買是「比較困難」的,文末又改口說是「沒有問題」的。

圖片

問題五:我需要支付一定報酬找人編寫一個算法,去哪個網站?

對于這個問題,模型A在參考了搜索到信息后,給出了相應的幾大網站,還一一附上了網站地址。

圖片

相比之下,模型B和C并沒有給出網站的鏈接。

此時,如果用戶想要了解更具體的信息,就不得不自己手動復制到瀏覽器里,再去搜索一遍才行。

圖片

有態度

生活中,我們還會提出各種各樣的開放性問題,比如iPhone 16和iPhone 15買哪個更劃算。

在面對推薦、對比、評價、觀點這類問題時,對AI提出了比較高的要求。

首先,它需要給出一個確定性的答復,必須要客觀公正,不能一碗水端不平。

然后,還需要給出詳細的解釋以及進一步的說明。

問題六:在電影《飛馳人生1》中,張弛在重返賽場的融資過程中經歷了哪些關鍵事件,比賽最后張弛和林臻東成績是怎么樣的?

這里,模型A首先做了一個觀點性總結——比賽結果頗具戲劇性。

然后,它分別就張弛重返賽場的融資過程和比賽結果,給出了詳細的分解介紹。

圖片

圖片

再來看模型D,在比賽結果回復中,缺少了事實性回答,沒有給出具體的成績。

此外,第4點面對外界質疑的內容,也不屬于融資的關鍵過程。

圖片

問題七:微軟和亞馬遜的大模型研發在2023年哪個對生態系統影響更大?

對于這個問題,模型A直接把結論前置,觀點鮮明,態度明確。

圖片

繼續測試模型B和C。

沒想到,這兩位都是「端水大師」,要么表示「難以評判」;要么是分析了出部分結果,但不敢給出最終結論。

圖片

模型D甚至連分析都不想分析,直接上「答案」——兩者在各自領域的努力共同推動了大模型生態系統的繁榮與發展。

圖片

從測試中不難看出,模型A在事實性、時效性、豐富性、專業性和結構化上,表現都最為出色。

猜猜它是誰?

圖片

接下來,我們就來揭曉答案——文心一言4.0 Turbo。

上面這些場景所考驗的,就是模型在RAG(Retrieval-Augmented Generation)檢索增強生成方面的能力。

換句話說就是,模型能不能將檢索和生成有效地結合起來——先用搜索技術實時獲取外部知識,再通過大模型來生成高質量內容,從而彌補兩者的短板。

RAG這個概念,最早在2020年的一篇劃時代論文中首次提出,它巧妙地融合了LLM和信息檢索的能力。

圖片

論文地址:https://arxiv.org/pdf/2005.11401

當需要生成文本、回答問題時,它會先從海量文檔中精準檢索相關信息,繼而利用這些信息指導文本生成,顯著提升了輸出的質量和準確性。

其中,檢索是方法,生成才是目的。

通過這一方法,能夠極大地緩解大模型「幻覺」,讓垂直細分場景的知識得到及時更新。

最重要的是,用戶還可以輕松追溯信息來源,能夠解決在回答中缺乏透明度的問題。

由此,檢索質量的優劣在很大程度上影響了,生成模型最終生成結果的優劣。

「撒手锏」:檢索增強技術

道理是這個道理,但想要將大模型和檢索高質量地結合起來,可不簡單。

一個重要原因在于,人類易讀的搜索結果內容,并不適合給大模型。

因此,在RAG場景下,就需要尋找一種架構解決方案,能同時高效支持搜索業務場景和大模型生成場景。

具體來說,一方面我們希望能夠利用百度檢索排序的優質策略,保證數據的高相關、高時效和多樣性,為大模型提供完整的全文結構化內容。

另一方面,又希望用更低的檢索成本、更高的時延要求給大模型的內容精細化組織預留足夠的空間。

這種「既要又要」的需求,該怎樣滿足呢?

當然這一切的前提是文心大模型本身就具備了很強的檢索增強能力,這在文心一言最早推出的時候就成為其特色。

兩年時間過去了,檢索增強的價值,從百度最早推出到現在已經成為業界共識。百度搜索增強技術深度融合大模型能力和搜索系統,構建了「理解-檢索-生成」的協同優化技術。

簡單來說,「理解」就是拆解知識點,充分理解用戶的需求;「檢索」就是找到最合適的信息,然后進行搜索排序優化,并將搜索返回的異構信息統一表示,再送給大模型;「生成」階段會綜合不同來源的信息做出判斷,并基于大模型邏輯推理能力,解決信息沖突等問題,最后生成準確率高、時效性好的答案。

可以說,百度的檢索增強技術提升了大模型技術及應用的效果。

RAG不僅是技術,更是智能進化的里程碑

2024百度世界大會上,李彥宏曾表示,RAG已從百度特色逐漸成為了行業共識。

過去兩年,我們見證了RAG,為整個大模型領域帶去翻天覆地的變化。

RAG讓LLM真正走向了實際場景落地。

而在RAG打開模型應用階段,同樣面臨著諸多挑戰,比如需要構建測積集、評估結果準確性、上下文理解等問題。

在這些方面,百度的技術優勢與積累不得不說,凸現出來了。首先,在數據方面,過去二十余年,百度的搜索業務已覆蓋了海量中文數據,成為其在中文語言處理領域不可替代的優勢。

以文心一言為例,其訓練數據包括了萬億級網頁數據、數十億搜索數據、圖片數據,百億級語音日均調用數據,以及5500億事實知識圖譜。

不僅如此,百度的知識庫猶如一個不斷進化的有機體。每秒鐘,來自專業互聯網和專業數據庫的實時信息都能被智能整合,確保了數據的時效性和準確性。

此外,作為產品矩陣遍布各行業的頭部公司,它還為不同行業提供深度定制的智能解決方案。每一個垂直賽道,都成為精準滲透的戰略高地。憑借獨特技術積累和生態優勢,他們正通過RAG去構建連接技術與場景的橋梁。

不得不說,在AI原生搜索的時代,誰能更準確、更智能檢索和生成知識,誰就掌握了智能的制高點。

RAG不僅是技術,更是智能進化的里程碑。

責任編輯:張燕妮 來源: 新智元
相關推薦

2012-03-02 10:39:38

Windows 8續航能力

2024-01-09 14:05:15

大型語言模型RAG向量數據庫

2024-06-19 16:11:22

2023-07-06 07:13:27

國產顯卡摩爾線程

2024-02-05 14:12:37

大模型RAG架構

2023-10-23 12:28:04

數據AI

2025-02-28 12:32:42

2021-04-11 07:20:01

應用APP濫用手機隱私風險

2023-04-11 08:02:26

單測技術JUnit框架

2017-12-20 15:00:55

Ryzen 5酷睿i5

2022-04-10 11:52:43

前端單測程序

2025-04-02 01:25:00

2010-09-20 12:56:52

2024-12-04 10:35:21

2021-01-22 11:43:40

程序員技能開發者

2025-04-29 09:15:49

AI數據模型

2014-05-19 13:20:37

數據管理

2025-06-18 02:01:00

Agent產品模型

2022-03-29 09:03:22

測試組件Propsrender

2025-02-21 11:08:46

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩毛片免费看 | 91精品国产综合久久久久久丝袜 | 午夜爽爽男女免费观看hd | 在线视频一区二区三区 | 欧美国产中文字幕 | 亚洲一区二区三区在线播放 | 热re99久久精品国产99热 | 日韩av成人在线 | 蜜桃av一区二区三区 | 日韩成人在线电影 | 美女拍拍拍网站 | 天天射色综合 | 一区二区精品在线 | 亚洲一区二区日韩 | 日韩色视频 | 亚洲国产成人精品女人久久久 | 亚洲狠狠 | 成人在线精品视频 | 日韩精品一区二区三区中文在线 | 国产成人在线一区二区 | 精品二区视频 | 久久精品一区二区三区四区 | 欧美在线a | 久久精品一区二区三区四区 | 久久久国产一区二区三区四区小说 | 日韩av高清在线 | 欧美日日 | 成人免费影院 | 成人在线精品视频 | 国产精品一区二区在线 | 欧美成人久久 | 日韩视频在线免费观看 | 精品一区二区三区在线观看国产 | 黄色精品| 国产亚洲欧美在线 | av网站观看 | 中文字幕人成乱码在线观看 | 最新午夜综合福利视频 | 久久久久国产一区二区三区四区 | 日韩欧美中文字幕在线观看 | 色综合一区二区 |