特定領域的模型微調是否有意義?BioRAG,一個大型 RAG 實際應用案例告訴您 精華
1. 生物學大型知識推理系統的現狀和問題
生物學領域的大型知識推理系統可分為兩個主流(如上圖(a-b)所示)。
圖片
? 微調語言模型:例如 bioBERT、sciBERT 以及針對特定領域定制的大型語言模型,如 PMC-Llama 和 Llava-med 等。這些模型基于特定領域的語料庫進行訓練,從而在模型中嵌入了深厚的領域知識。不過,嵌入的知識可能不完整,而且更新時計算成本較高。
? 檢索增強生成方法:遵循信息索引和檢索、信息增強及答案生成的模式。比如,PGRA 采用檢索器進行搜索和重新排序上下文,然后生成答案。后續研究致力于通過利用先前答案優化檢索過程、通過迭代反饋循環增強模型功能,或者借助搜索引擎擴展知識庫以納入最新信息等方式來改進這些系統。盡管基于 RAG 的方法解決了信息更新的問題,但往往忽略了生物學領域知識中固有的復雜細節。
基于上述討論,總結了構建高效生物學問題推理系統的三個挑戰:
? 高質量的特定領域語料庫稀缺。盡管生物研究方面的出版物豐富,但在構建強大的信息索引模型時,廣泛且高質量的數據集仍嚴重匱乏。
? 生物知識系統固有的復雜性。這種復雜性因現代生物學研究的跨學科特性而更加突出。因此,自動化的問題推理系統必須能夠理解和處理多方面且往往模糊不清的生物查詢。
? 知識的持續更新。生物學是一個動態的領域,新發現層出不窮,現有的理論也時常被修訂或取代。這種動態變化要求問題推理系統能夠嫻熟地從數據庫或當下的搜索引擎中選取知識源,以反映出正確的科學認知。
為應對上述挑戰,作者提出了 BioRAG:一個與大型語言模型相集成的新型檢索增強生成框架,用于生物問題推理。
2. 什么是 BioRAG
圖片
首先對生物領域的大量研究文章進行解析、索引和分割,并構建高質量的訓練語料庫。
接著通過將預先構建的研究層級結構與嵌入模型相結合,以實現準確的上下文檢索。
為應對新興的生物學知識,BioRAG 能夠從搜索引擎、現有的特定領域工具或已索引的研究文章中自適應地選擇知識源。
一旦框架判定已收集到足夠的信息,它將依據推理材料生成答案。
2.1 內部生物信息源
在生物問答系統中,高質量的特定領域語料庫對于豐富信息源和增強嵌入模型至關重要。
為達成此目標,從國家生物技術信息中心(NCBI)維護的全球生物醫學文章數據庫中提取研究論文。匯集了自 20 世紀 50 年代至今超過 3700 萬篇科學引文和摘要,涵蓋了臨床醫學、分子生物學等廣泛的生物醫學領域。
? 本地數據準備:下載了超 3700 萬篇原始論文,隨后從中篩選出 1400 萬篇質量欠佳的條目。使用 Unstructured 工具(https://github.com/Unstructured-IO )對這些文本進行預處理,該工具專為有效攝取和處理非結構化文本數據而設計。過濾流程包括運用正則表達式技術去除亂碼,以及排除超鏈接、圖表、表格和其他嵌入標簽等非語義內容。這一精細的過程生成了一個包含 22,371,343 篇高質量、已處理的 PubMed 摘要的語料庫。
? 信息索引:為進一步優化針對特定生物問題摘要的檢索性能,在 BioRAG 框架內開發了一個專門的生物嵌入模型。該模型以 PubMedBERT 作為基礎模型。使用 CLIP(對比語言 - 圖像預訓練)技術對其進行增強,從而能夠微調模型。
基于此,構建了一個本地化的高品質生物載體數據庫,以支持高效、有效的查詢處理與檢索操作。此數據庫作為關鍵資源,有助于快速且精準地獲取相關生物醫學信息,顯著增強了 BioRAG 框架處理復雜生物問題的能力。
2.2 外部信息源
由于生物研究發展迅速,不斷融合新發現,所以外部生物學知識對于生物推理而言至關重要。為了解決這個問題,引入了兩個外部信息源。
2.2.1 生物數據中心
BioRAG 整合了以下數據庫,每個數據庫在更廣泛的生物分析情境中都具有獨特用途:
? (1) 基因數據庫 https://www.ncbi.nlm.nih.gov/gene/:該資源提供特定基因的功能、結構和表達的全面信息。對于解決與基因機制、基因作用和基因表達相關的查詢,促進對基因相關現象的更深入理解極具價值。
? (2) dbSNP 數據庫 https://www.ncbi.nlm.nih.gov/snp/:此數據庫存有大量的單核苷酸多態性(SNPs),為研究遺傳變異及其與各類疾病的潛在關聯提供了關鍵見解。對于探索疾病和性狀遺傳的遺傳基礎的研究甚為有用。
? (3) 基因組數據庫 https://www.ncbi.nlm.nih.gov/genome/:提供完整的基因組序列,該數據庫對于研究不同生物體的基因組的結構、功能和進化至關重要。它支持全面的基因組分析和比較研究,增進了我們對基因組架構及其功能影響的理解。
? (4) 蛋白質數據庫 https://www.ncbi.nlm.nih.gov/protein/:該資源提供蛋白質的序列、結構和功能的詳細信息。對于探索與蛋白質相關的生物過程、理解分子功能和研究蛋白質組內的復雜相互作用意義重大。
2.2.2 搜索引擎
為確保獲取最新的討論和進展,BioRAG 整合了多種搜索引擎,包括谷歌、必應、arXiv、維基媒體和 Crossref。每個平臺都對信息的聚合有獨特貢獻:
? (1) 谷歌和必應:這些搜索引擎在網絡上廣泛搜索各類內容,包括新聞文章、博客和論壇,提供有關與科學主題相關的公眾討論和關注的見解。這種信息的廣度對于理解科學問題的社會影響和一般性論述極為關鍵。
? (2) arXiv:作為預印本論文的庫,arXiv 在經過同行評審之前提供了跨多個科學學科的最新研究報告和學術文章的訪問渠道。此來源對于緊跟最新的科學理論和實驗極有價值。
? (3) 維基媒體:以其用戶友好的內容著稱,維基媒體為復雜的科學概念和原理提供了易于理解的闡釋。該資源有助于為更廣泛的公眾理解和教育目的簡化高級主題。
? (4) Crossref:這項服務作為學術引文數據的綜合聚合器,提供了同行評審的學術出版物及其引文網絡的鏈接。Crossref 對于獲取高質量的研究成果并理解其對學術界的影響至關重要。
2.3 自評估信息檢索器
BioRAG 整合了一種自我評估機制,用以持續評估其所收集信息的充分性與相關性。
?內部信息檢索:為有效應對生物知識系統固有的復雜性,BioRAG 借助一種集成手段,將明確界定的層次結構與索引信息相結合,開展全面的內部信息檢索。首先訓練一個 M_textMeSH 模型來預測輸入問題的 MeSH。接著,我們使用下圖中的模板對 Llama3-8B 模型進行微調,以對給定問題進行分類。構建 MeSH 過濾 SQL 來生成條件檢索。若候選結果與給定問題存在一個一致的 MeSH,則認為該候選結果與給定問題相關。然后,采用向量檢索過程,依據輸入問題和過濾結果之間句子嵌入的余弦相似度對相關結果進行排序。
?自我評估策略:為確保檢索信息的準確性和時效性,BioRAG 引入了一種自我評估策略,評估從內部知識庫收集的數據的充分性。由后端大型語言模型驅動,旨在確定內部檢索的信息是否足以切實解決所提出的問題。若內部內容不足,模型將回溯至相關的外部知識源。另外,當初始評估表明科學問題需要更廣泛的搜索或特定實體數據的檢索時,模型傾向于運用外部工具。這種方法支持該框架提供精準、最新、全面答案的目標,助力更明智的決策,推動生命科學中的研究和應用。
2.4 提示詞
為最大限度發揮檢索到的語料庫和知識的效用,在 BioRAG 中專門設計了一系列提示詞。提示詳細定義如下:
? 提示詞 # 1:To provide the most helpful and accurate response to the following Question: {Question}. You have been given descriptions of several RETRIEVAL METHODS: {Retrieval}. Please select the RETRIEVAL METHODS you consider the most appropriate for addressing this question.
? 提示詞 # 2: Based on the RETRIEVAL METHODS you selected, and considering the Question and the Input Requirements of the retrieval method, please REWRITE the search query accordingly.
? 提示詞 # 3: Now, using the rewritten QUERY and the retrieval FILTER methods, perform a logical combination to execute the search effectively.
? 提示詞 # 4: Based on the RETRIEVAL RESULTS from the above steps, please evaluate whether the RESULTS support answering the original Question. If they do not support it, output "NO". If they do support it, output "YES".
? 提示詞 # 5: Based on the RETRIEVAL RESULTS, perform a comprehensive reasoning and provide an answer to the Question.
此外,為專業生物學工具和數據庫編制了一系列操作手冊,目的是最大限度地發揮它們的能力。具體操作說明如下:
? 手冊 # 基因: 基因數據庫搜索引擎是獲取基因全面信息的寶貴資源,涵蓋基因結構、功能及相關遺傳事件。它特別適合解答關于基因研究和發現的詳細問題。要有效使用此搜索引擎,請輸入特定的基因名稱。
? 手冊 # dbSNP: dbSNP 數據庫搜索引擎是獲取單核苷酸多態性(SNP)和其他遺傳變異詳細信息的關鍵工具。它特別適合解答關于遺傳多樣性、等位基因頻率和相關遺傳研究的問題。要有效使用此搜索引擎,請輸入特定的 SNP 標識符或遺傳變異名稱。
? 手冊 # 基因組: 基因組數據庫搜索引擎是訪問整個基因組全面信息的必備工具,包括序列、注釋和功能元件。它特別適合解答關于基因組結構、變異和比較基因組學的復雜問題。要有效使用此搜索引擎,請輸入特定的基因組名稱或標識符。
? 手冊 # 蛋白質: 蛋白質數據庫搜索引擎是獲取蛋白質詳細信息的關鍵資源,包括序列、結構、功能和相互作用。它特別適合解答關于蛋白質生物學、生化特性和分子功能的問題。要有效使用此搜索引擎,請輸入特定的蛋白質名稱或標識符。
? 手冊 # 網絡搜索: 網絡搜索引擎是一個強大的工具,設計用來快速有效地幫助您找到關于當前事件的信息。它特別適合獲取各種主題的最新新聞、更新和發展。要有效使用此搜索引擎,只需輸入相關的搜索查詢。
? 手冊 #PubMed:PubMed 本地向量數據庫搜索引擎是一款采用基于向量的搜索技術來檢索生物醫學文獻和研究文章的先進工具。它在解答有關醫學研究、臨床研究和科學發現的詳細問題方面特別有用。若要有效地使用此搜索引擎,輸入應為特定的查詢或感興趣的主題。
3 效果對比分析
3.1 生物學相關任務的成果
圖片
為驗證所提模型的有效性,首先開展生物學問答任務。成果展示于上表:
? (1) 基于 BioLLMs 和 GPT-3.5 的結果,針對特定領域數據的微調對領域特定任務大有裨益。鑒于 BioLLMs 的規模遠小于 GPT-3.5,它們的表現卻能與 GPT-3.5 相媲美。
? (2) BioRAG 的表現超越了 BioLLMs 和 GPT-3.5,表明本地數據集和外部數據集的作用。
? (3) 盡管 BioRAG 的規模遠不及 SciRAG(NewBing),其性能卻更勝一籌。這一優勢源自兩個方面:一是定制化的提示;二是本地和外部信息源的利用。NewBing 無法接入專業數據庫,缺乏進行推理所需的技術性生物學描述。
? (4) GeneGPT 在此項任務中準確率掛零,因為它是專為 GeneTuring 數據集定制的模型,導致其泛化能力不足。
3.2 專業生物學推理成果
圖片
GeneTuring 數據集囊括了更多專業生物學問題,相應的推理過程極度依賴于技術性生物學文獻和描述。成果如上表。
由于該數據集未包含訓練數據,BioLLMs 未經微調直接運行,所以它們的表現不佳,反映出泛化能力的不足。
在此數據集中,作者專注于分析 GeneGPT、NewBing 和 BioRAG:
? (1) 在命名法任務中,BioRAG 和 GeneGPT 的表現分別位居第一和第二,因為兩者都能訪問 Gene 數據庫。BioRAG 整合了搜索引擎的結果,而 GeneGPT 則沒有,這造成了兩者之間的差距。
? (2) 基因組位置任務的推理依賴于專業的 Gene 和 dbSNP 數據庫。BioRAG 和 GeneGPT 在基因 SNP 關聯子任務中均達到了 100%的準確率,因為它們都能訪問 dbSNP 數據庫。然而,NewBing 由于無法訪問 dbSNP 數據庫,在此項任務中準確率歸零。對于基因位置子任務,挑戰在于基因名稱的多樣性。GeneGPT 的界面不支持高級搜索,導致檢索到的名稱不夠全面。相比之下,通用搜索引擎如 NewBing 在查詢實體存在變體或歧義時,能提供更全面的檢索結果。因此,在這項任務中,NewBing 的表現優于 GeneGPT。BioRAG 支持上述兩種界面,并在此項任務中取得了最佳成果。
? (3) 功能分析任務依賴于基因數據庫及相關的 PubMed 論文。PubMed 語料庫提供了詳盡的基因 - 疾病關系。盡管 NewBing 能檢索元數據,但 BioRAG 把本地 PubMed 數據庫與其他專業數據庫加以整合,以獲取最佳成果。
3.3 消融分析
為評估 BioRAG 各個組件的貢獻,借助 GeneTuring 數據集展開了廣泛的消融研究,有系統地移除各個組件,以衡量其在各類任務中的性能影響。
-(1)數據庫的影響:結果顯示,基因數據庫在性能方面發揮著關鍵作用。比如,當移除此組件時,像基因位置這類任務的準確性顯著降低。通用搜索引擎和本地 PubMed 數據庫也有積極作用,但與基因數據庫相比,其影響沒那么顯著。
-(2)組件貢獻:在組件當中,自我評估機制對于在大多數任務中維持高精度至關重要。MeSH 過濾器和查詢重寫也能提升性能,但其缺失不像自我評估的移除那樣嚴重降低結果。
-(3)基礎語言模型的影響:對比兩個基礎模型,Llama-3-70B 在所有任務中通常優于 Llama-3-8B,表明更大的模型規模有助于更好地處理復雜的生物查詢。這些發現凸顯了在 BioRAG 框架內融合各種數據源和高級組件對于在生物問題推理任務中達成最優性能的重要性。通過了解每個組件的貢獻,能夠針對不同的任務和數據集更好地優化 BioRAG。
3.4 案例研究
為了更直觀地對比 BioRAG 與基線之間的推理差異,選取了三個典型的案例研究。
圖片
首先提供一個案例研究來展示 BioRAG 的工作流程(如上圖)。選自大學生物學數據集。BioRAG 進行了兩次自我評估:首次它從網絡搜索一般性信息起步,但結果不足以支撐回答問題。于是,BioRAG 進行了第二次自我評估,并調用了更專業的 PubMed 數據庫。此次的結果準確且足以支撐回答問題,因此 BioRAG 依據結果給出最終答案。
圖片
第二個案例研究在 GeneTuring 數據集中的基因別名任務上開展(如上圖)。此任務的挑戰在于基因名稱的變體。NewBing 從維基媒體獲取響應。然而,維基媒體不夠專業,無法為輸入基因提供別名,致使答案有誤。
GeneGPT 的提示過于繁復,且與當前任務無關。更甚者,其 NCBI API 僅返回基因的 ID 而非名稱,導致大型語言模型(LLM)無法識別,最終得出了錯誤結論。
相比之下,BioRAG 采用模糊查詢技術,能夠容忍更高的誤差,同時獲取更多相關反饋。每個反饋結果都詳盡地包含了基因的別名等相關信息,使得 BioRAG 能夠準確回答。
圖片
在 GeneTuring 數據集中的基因-疾病關聯任務上,進行了第三次案例研究,如上圖所示。這項任務的邏輯推理需要依賴基因數據庫和相關的 PubMed 文獻。PubMed 的摘要提供了詳盡的基因與疾病之間的聯系。
NewBing 從 Geekymedics 網站獲取了回應,但該網站雖提供廣泛的醫學信息,卻未能提供基因-疾病關聯所需的精確細節。因此,NewBing 由于依賴非專業資源,其回答并不準確。
GeneGPT 錯誤地選擇了 NCBI 的 API,該 API 返回的是復雜且冗長的 HTML 頁面,充斥著大量無關信息。在這些含糊不清的信息背景下,GeneGPT 給出了錯誤的答案。
在 BioRAG 的推理過程中,它綜合運用了基因數據庫、本地 PubMed 數據庫和網絡搜索等多種工具,以收集并相互驗證與 B 細胞免疫缺陷相關的基因信息。這一過程涵蓋了查詢預處理、執行搜索以及在每個步驟中進行自我評估,確保了結果的全面性和準確性。BioRAG 的推理過程是深入細致的,它整合了各種數據源,以確認特定基因與 B 細胞免疫缺陷之間的聯系。
本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI ????
