斯坦福開源學(xué)術(shù)研究神器STORM再進(jìn)化，AI智能體像人一樣進(jìn)行圓桌討論

作者：機(jī)器之心 2024-10-28 10:30:00

STORM 在 LLM 的協(xié)助下，通過檢索、多角度提問和模擬專家對話等方式，在整理收集到的信息基礎(chǔ)上生成寫作大綱，并最終形成一份詳細(xì)、深入和準(zhǔn)確的內(nèi)容報告。

今年 4 月，斯坦福大學(xué)推出了一款利用大語言模型（LLM）輔助編寫類維基百科文章的神器。它就是開源的 STORM，可以在三分鐘左右將你輸入的主題轉(zhuǎn)換為長篇文章或者研究論文，并能夠以 PDF 格式直接下載。

具體來講，STORM 在 LLM 的協(xié)助下，通過檢索、多角度提問和模擬專家對話等方式，在整理收集到的信息基礎(chǔ)上生成寫作大綱，并最終形成一份詳細(xì)、深入和準(zhǔn)確的內(nèi)容報告。STORM 尤其擅長需要大量研究和引用的寫作任務(wù)。更難得的是，用戶可以直接在 STORM 的網(wǎng)站免費(fèi)體驗。

此后，STORM 不斷推出新的功能和服務(wù)，在 GitHub 上的 Star 量已經(jīng)超過了 12k。

GitHub 地址：https://github.com/stanford-oval/storm

就在最近，該團(tuán)隊又推出全新功能 ——Co-STORM。與 STORM 的區(qū)別在于，它引入了協(xié)作對話機(jī)制，并采用輪次管理策略，實現(xiàn)流暢的協(xié)作式 AI 學(xué)術(shù)研究。功能包括如下：

Co-STORM LLM 專家：這種類型的智能體會根據(jù)外部知識來源生成答案并能根據(jù)對話歷史提出后續(xù)問題。

主持人（Moderator）：該智能體會根據(jù)檢索器發(fā)現(xiàn)但未在前幾輪直接使用的信息生成發(fā)人深省的問題。當(dāng)然，問題生成也可以基于事實。

人類用戶：人類用戶將主動觀察對話以更深入地了解主題，或者通過注入對話來引導(dǎo)討論焦點，積極參與對話。

Co-STORM 的界面是下面這樣的。

體驗地址：https://storm.genie.stanford.edu/

我們讓 Co-STORM 就戰(zhàn)爭與和平（war and peace）主題來生成一篇文章，大約需要三分鐘。

在生成文章之后，我們可以看到，主持人提出問題，并得到基本信息提供者、文學(xué)教授、紀(jì)錄片導(dǎo)演等不同 AI 智能體的回復(fù)，然后開啟新一輪次的提問。

此外，Co-STORM 的相關(guān)論文已被 EMNLP 2024 主會議收錄。

論文地址：https://www.arxiv.org/pdf/2408.15232

運(yùn)行原理概覽

下圖為 Co-STORM 框架。整體而言，Co-STORM 模擬用戶、觀點引導(dǎo)專家和主持人之間的協(xié)作對話。

運(yùn)行原理如下所示：首先維護(hù)動態(tài)更新的思維導(dǎo)圖（3.2），從而幫助用戶跟蹤和參與對話（3.3）。

在 3.4，提示模擬專家根據(jù)對話歷史來確定對話意圖，并生成基于互聯(lián)網(wǎng)的問題或答案。

在 3.5，提示模擬主持人利用未使用的信息和思維導(dǎo)圖生成新問題，從而自動引導(dǎo)對話。

最后，思維導(dǎo)圖可用來生成完整的引用報告以作為總結(jié)。

評估結(jié)果

自動評估可以實現(xiàn)可擴(kuò)展測試，并允許對用戶行為進(jìn)行一致的模擬。

研究者將 Co-STORM 與以下基線進(jìn)行比較：（1）RAG Chatbot，該基線從搜索引擎檢索信息并通過一問一答范式與用戶交互；（2）STORM + QA，該基線使用 STORM 框架為給定主題生成報告以提供基本信息。

下表 3 展示了報告質(zhì)量和對話中問答輪次質(zhì)量的評估結(jié)果。問答輪次和最終報告是人類與 Co-STORM 交互時學(xué)習(xí)的主要來源。STORM + QA 在研究給定主題時考慮了多種觀點，與 RAG Chatbot 相比，確實提高了報告質(zhì)量所有四個評分維度的表現(xiàn)。

同樣，Co-STORM 的表現(xiàn)優(yōu)于 RAG Chatbot，特別是在深度和新穎性方面，它通過模擬具有多個智能體角色的協(xié)作對話，類似于圓桌討論。就對話質(zhì)量而言，Co-STORM 中的問答輪次在一致性和參與度方面明顯優(yōu)于兩個基線。

Co-STORM 的一個關(guān)鍵特性是 LM 智能體可以代表用戶提問。如下圖 3 所示，在檢查提問輪次時，Co-STORM 多智能體設(shè)計的優(yōu)勢變得更加明顯，只需要一位專家和一位主持人就可以極大地獲益。

重要的是，CoSTORM 中的主持人角色會根據(jù)有關(guān)主題的未使用信息提出問題。這樣的角色代表擁有更多已知未知（known unknowns）的人，有效地引導(dǎo)對話，幫助用戶在未知未知（unknown unknowns）空間中發(fā)現(xiàn)更多信息。

下表 4 為人工評分結(jié)果，圖 4 為成對比較結(jié)果。可以得出結(jié)論，CoSTORM 可以幫助用戶找到與其目標(biāo)相關(guān)的更廣泛、更深層次的信息。

更多技術(shù)細(xì)節(jié)和評估結(jié)果請參考原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 開源模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福開源學(xué)術(shù)研究神器STORM再進(jìn)化，AI智能體像人一樣進(jìn)行圓桌討論

運(yùn)行原理概覽

評估結(jié)果