全球最強長文本大模型,一次可讀35萬漢字:Baichuan2-192K上線
國內大模型創業公司,正在技術前沿創造新的記錄。
10 月 30 日,百川智能正式發布 Baichuan2-192K 長窗口大模型,將大語言模型(LLM)上下文窗口的長度一舉提升到了 192K token。
這相當于讓大模型一次處理約 35 萬個漢字,長度達到了 GPT-4(32K token,約 2.5 萬字)的 14 倍,Claude 2.0(100K token,約 8 萬字) 的 4.4 倍。
換句話說,Baichuan2-192K 可以一次性讀完一本《三體 2》,是全球處理上下文窗口長度最長的大模型。此外,它也在文本生成質量、上下文理解、問答能力等多個維度的評測中顯著領先對手。
能夠一次理解超長文本的大模型,究竟能做哪些事?百川智能進行了一番簡單演示。
上傳一整部《三體 2:黑暗森林》的 PDF 文件,百川大模型統計出來是 30 萬字。接下來,如果你詢問有關這本小說里的任何問題,大模型都可以給出簡潔準確的答案。
有時候我們尋求 AI 的幫助,并不是希望他們發揮想象力,而是要提取準確信息。有了 Baichuan2-192K,我們可以快速解讀幾十頁,甚至幾百頁的合同文件,讓 AI 快速給出簡明摘要,四舍五入就是量子速讀了:
那么如果我突然接到新任務,有一堆文件要看呢?
直接打包一起上傳就可以了,百川大模型可以輕松把五篇新聞整合成一篇。
大模型能夠理解的內容變長之后,應用的方向會越來越多。眾所周知,長文本建模能力是很多場景能夠應用落地的前提條件。這一次,百川做到了業內領先。
從幾萬字到幾十萬字,頭部創業公司都在搶灘「長窗口」
如果你關注大模型在文本理解方向的應用,或許會注意到一個現象:一開始,大家用來測評模型能力的文本可能都是一些財報、技術報告,這些文本通常有十幾頁到幾十頁不等,字數通常也就幾萬字。但后來,測試文本逐漸演變為幾個小時的會議記錄,或者幾十萬字的長篇小說,競爭越來越激烈,難度也越來越大。
與此同時,宣稱能理解更長上下文的大模型公司也越來越受關注。比如前段時間,宣稱能實現 100K token 上下文窗口的大模型 ——Claude 背后的公司 Anthropic 先后拿到了微軟和谷歌數十億美元的融資,將大模型軍備競賽推向了新的層面。
為什么這些公司都在挑戰長文本?
首先從應用的角度來看,使用大模型來提高生產力的很多工作者都不免要處理很長的文本,比如律師、分析師、咨詢師等,上下文窗口越大,這些人能用大模型做的事情就越廣泛;其次,從技術的角度來看,窗口所能容納的信息越多,模型在生成下一個字時可以參考的信息就越多,「幻覺」發生的可能性就越小,生成的信息就越準確,這是大模型技術落地的必要條件。所以,在想辦法提升模型性能的同時,各家公司也在比拼誰能把上下文窗口做得更大,從而投放到更多的應用場景。
從前面展示的一些例子中可以看到,Baichuan2-192K 在文本生成質量和上下文理解方面表現都很出色。而且,在這些定性結果之外,我們還可以從一些定量評估數據中看到這一點。
Baichuan2-192K:文件越長,優勢越明顯
在文本生成質量評估中,一個很重要的指標叫「困惑度」:當我們將符合人類自然語言習慣的高質量文檔作為測試集時,模型生成測試集中文本的概率越高,模型的困惑度就越小,模型也就越好。
用來測試百川大模型困惑度的測試集名叫 PG-19。這個數據集由 DeepMind 的研究人員制作,用來制作該數據集的資料來自古騰堡計劃的圖書,因此 PG-19 具有書本級的質量。
測試結果如下圖所示。可以看到,在初始階段(橫軸左側,上下文長度比較短的階段),Baichuan2-192K 的困惑度便處于較低的水準。隨著上下文長度的增加,它的優勢變得愈發明顯,甚至呈現出困惑度持續下降的狀態。這說明,在長上下文的場景中,Baichuan2-192K 更能保持書本級的文本生成質量。
在上下文理解能力上,Baichuan2-192K 的表現也非常亮眼。
這項能力的評估采用了權威的長窗口文本理解評測基準 LongEval。LongEval 是由加州大學伯克利分校聯合其他高校發布的針對長窗口模型評測的榜單,主要衡量模型對長窗口內容的記憶和理解能力,模型得分越高越好。
從下圖的評估結果中可以看到,隨著上下文長度的增加,Baichuan2-192K 一直能夠保持穩定的高性能,在窗口長度超過 100K 之后也是如此。相比之下,Claude 2 在窗口長度超過 80K 后整體效果下降就已經非常嚴重。
此外,模型還在 Dureader、NarrativeQA、TriviaQA、LSHT 等多個中英文長文本問答、摘要的評測集上經歷了測試。結果顯示,Baichuan2-192K 同樣表現優異,在大部分長文本評測任務中都遠超其他模型。
簡而言之,處理的內容越長,百川的大模型相對性能就越好。
192K 超長上下文,百川是怎么做到的?
擴大上下文窗口能有效提升大模型性能是人工智能行業的共識,但是超長上下文窗口意味著更高的算力需求和更大的顯存壓力。
為了緩解這種壓力,業內出現了一些折中的方法,比如把模型做小;讓模型通過滑動窗口等方式主動拋棄前文,只保留對最新輸入的注意力機制;通過對上下文的降采樣或者 RAG(檢索增強的生成),只保留對部分輸入的注意力機制等等。
這些方式雖然能提升上下文窗口長度,但對模型的性能均有不同程度的損害。換言之,它們都是通過犧牲模型其他方面的性能來換取上下文窗口長度,比如模型無法基于全文信息回答復雜問題,難以跨多個文本綜合考慮答案等。
而本次百川發布的 Baichaun2-192K 通過算法和工程的極致優化,實現了窗口長度和模型性能之間的平衡,做到了窗口長度和模型性能的同步提升。
算法方面,百川智能提出了一種針對 RoPE 和 ALiBi 的動態位置編碼的外推方案,該方案能夠對不同分辨率的 ALiBi_mask 進行不同程度的 Attention-mask 動態內插,在保證分辨率的同時增強了模型對長序列依賴的建模能力。
工程方面,在自主開發的分布式訓練框架基礎上,百川智能整合了目前市場上所有先進的優化技術,包括張量并行、流水并行、序列并行、重計算以及 Offload 功能等,獨創了一套全面的 4D 并行分布式方案。該方案能夠根據具體的負載情況,自動尋找最適合的分布式策略,極大地降低了長窗口推理過程中的顯存占用。
打大模型之戰,速度要快
成立于今年 4 月的百川智能,幾乎可以說是業內技術迭代最快的大模型創業公司。在成立僅半年的時間里,這家公司就已經發布了 Baichuan-7B/13B、Baichuan2-7B/13B 四款開源可免費商用的大模型,以及 Baichuan-53B、Baichuan2-53B 兩款閉源大模型。
平均下來,每個月就發布一款新的大模型。
Baichuan 系列大模型融合了意圖理解、信息檢索以及強化學習技術,結合有監督微調與人類意圖對齊,在知識問答、文本創作領域表現突出。這些大模型也因為其能力在業內備受青睞:Baichuan 系列開源模型在各大開源社區的累積下載量已突破六百萬次;Baichuan 2 更是在各維度全面領先 Llama 2,引領了中國開源生態發展。
8 月 31 日,百川智能率先通過《生成式人工智能服務管理暫行辦法》,是首批 8 家公司中唯一一家今年創立的大模型公司。9 月 25 日,百川智能開放 Baichuan API 接口,正式進軍 To B 領域,開啟商業化進程。
可以說,從技術研發到落地,百川的速度都足夠快。
剛剛發布的 Baichuan2-192K 已經正式開啟內測,將以 API 調用的方式開放給核心合作伙伴。百川表示,其已經與財經類媒體及律師事務所等機構達成了合作,把 Baichuan2-192K 領先的長上下文能力應用到了傳媒、金融、法律等具體場景當中,不久后將以 API 調用和私有化部署的方式提供給企業用戶。
以 API 的形式全面開放之后,Baichuan2-192K 能夠與大量垂直場景深度結合,在人們的工作、生活、學習中發揮作用,助力行業用戶大幅提升效率。Baichuan2-192K 能夠一次性處理和分析數百頁的材料,對于長篇文檔關鍵信息提取與分析,長文檔摘要、長文檔審核、長篇文章或報告編寫、復雜編程輔助等真實場景都有巨大的助力作用。
此前,百川智能創始人、CEO 王小川曾透露,今年下半年,百川將推出千億級的大模型,明年預計會有 C 端的超級應用部署。
面對與 OpenAI 的差距,王小川坦言,在理想方面我們和 OpenAI 確實存在差距,OpenAI 的目標是探索智能的天花板,他們甚至希望設計出將 1000 萬顆 GPU 連在一塊的技術。但是,在應用方面我們比美國走得更快,互聯網時代積累下來的應用和生態的經驗,能讓我們走的更快也更遠,所以百川做大模型的理念,叫做「理想上慢一步,落地上快三步」。
由此來看,Baichuan2-192K 正是這種理念的延展,全球最長的上下文窗口無疑也將加速百川智能大模型技術落地的進程。