從RAG到QA-RAG:整合生成式AI以用于藥品監(jiān)管合規(guī)流程
圖片
引言
聊天機(jī)器人的進(jìn)步
近期生成式AI的進(jìn)展顯著增強(qiáng)了聊天機(jī)器人的能力。這些由生成式人工智能驅(qū)動(dòng)的聊天機(jī)器人在各個(gè)行業(yè)中的應(yīng)用正在被探索[Bahrini等人,2023年;Castelvecchi,2023年;Badini等人,2023年],其中制藥行業(yè)是一個(gè)顯著的關(guān)注領(lǐng)域。在藥物發(fā)現(xiàn)領(lǐng)域,最近的研究表明,由生成式人工智能驅(qū)動(dòng)的聊天機(jī)器人在推進(jìn)藥物發(fā)現(xiàn)方面可以發(fā)揮重要作用[Wang等人,2023年;Savage,2023年;Bran等人,2023年]。這樣的進(jìn)步不僅簡(jiǎn)化了發(fā)現(xiàn)過(guò)程,而且為聊天機(jī)器人提出新的研究想法或方法鋪平了道路,增強(qiáng)了研究的協(xié)作性。在醫(yī)療保健領(lǐng)域,聊天機(jī)器人在提供個(gè)性化支持方面被證明特別有效,這可以帶來(lái)更好的健康結(jié)果和更有效的治療管理[Ogilvie等人,2022年;Abbasian等人,2023年]。這些聊天機(jī)器人可以提供及時(shí)的用藥提醒、傳遞有關(guān)潛在副作用的信息,甚至協(xié)助安排醫(yī)生咨詢。
聊天機(jī)器人對(duì)藥物監(jiān)管指導(dǎo)的需求
在制藥行業(yè)中,另一個(gè)可以充分利用生成式人工智能的關(guān)鍵領(lǐng)域是確保符合監(jiān)管指南的要求。對(duì)于行業(yè)從業(yè)者來(lái)說(shuō),應(yīng)對(duì)像美國(guó)食品藥品監(jiān)督管理局(FDA)和歐洲藥品管理局(EMA)等機(jī)構(gòu)提供的復(fù)雜而廣泛的指南通常是一項(xiàng)令人生畏且耗時(shí)的任務(wù)。大量的指導(dǎo)方針,加上其復(fù)雜的細(xì)節(jié),可能使公司難以快速找到并應(yīng)用相關(guān)信息。這通常導(dǎo)致成本增加,因?yàn)閳F(tuán)隊(duì)花費(fèi)寶貴的時(shí)間瀏覽龐大的指導(dǎo)方針資料庫(kù)。最近的一項(xiàng)研究強(qiáng)調(diào)了遵守監(jiān)管指導(dǎo)方針的財(cái)務(wù)影響[Crudeli, 2020]。研究發(fā)現(xiàn),合規(guī)工作可能消耗掉中型或大型制藥制造運(yùn)營(yíng)預(yù)算的25%。鑒于這些挑戰(zhàn),制藥行業(yè)需要一種更高效的方法來(lái)導(dǎo)航和解釋監(jiān)管指導(dǎo)方針。大型語(yǔ)言模型(LLMs)可以有助于解決這個(gè)問(wèn)題。然而,盡管它們經(jīng)過(guò)了廣泛的預(yù)訓(xùn)練,LLMs在獲取未包含在其初始訓(xùn)練數(shù)據(jù)中的知識(shí)時(shí)常常遇到固有的限制。特別是在高度專業(yè)化和詳細(xì)的制藥監(jiān)管合規(guī)領(lǐng)域,很明顯這種特定領(lǐng)域的知識(shí)并未完全包含在訓(xùn)練材料中。因此,LLMs可能不足以準(zhǔn)確回答該領(lǐng)域的問(wèn)題。
檢索增強(qiáng)生成(RAG)模型作為連接這一差距的橋梁而脫穎而出。它不僅利用了這些模型的內(nèi)在知識(shí),還從外部來(lái)源獲取額外信息以生成響應(yīng)。如[Wen等人,2023年]和[Yang等人]的工作所示,RAG框架能夠做到這一點(diǎn)。[2023年]的研究展示了如何巧妙地將豐富的背景資料與答案相結(jié)合,確保對(duì)查詢進(jìn)行全面準(zhǔn)確的回應(yīng)。這些研究突顯了RAG在多種應(yīng)用中的多功能性,從復(fù)雜故事的生成到定理的證明。
此外,有證據(jù)表明,RAG模型在典型的序列到序列模型和某些檢索與提取架構(gòu)中表現(xiàn)卓越,特別是在知識(shí)密集型的自然語(yǔ)言處理任務(wù)中。盡管RAG取得了進(jìn)步,但我們認(rèn)識(shí)到,傳統(tǒng)RAG方法在監(jiān)管合規(guī)領(lǐng)域的準(zhǔn)確性可能不足,該領(lǐng)域需要特定領(lǐng)域的、高度專業(yè)化的信息。因此,我們引入了問(wèn)答檢索增強(qiáng)生成(QA-RAG)。QA-RAG模型專為需要專業(yè)知識(shí)的高度特定領(lǐng)域設(shè)計(jì),它精確地將監(jiān)管指南與實(shí)際實(shí)施對(duì)齊,簡(jiǎn)化了制藥行業(yè)的合規(guī)流程。
核心速覽
研究背景
- 研究問(wèn)題:這篇文章要解決的問(wèn)題是如何在制藥行業(yè)中利用生成式AI和檢索增強(qiáng)生成(RAG)方法來(lái)提高監(jiān)管合規(guī)的效率和準(zhǔn)確性。
- 研究難點(diǎn):該問(wèn)題的研究難點(diǎn)包括:制藥行業(yè)監(jiān)管指南的復(fù)雜性和詳盡性,傳統(tǒng)RAG方法在處理高度專業(yè)化信息時(shí)的局限性,以及如何在保證準(zhǔn)確性的同時(shí)提高檢索效率。
- 相關(guān)工作:該問(wèn)題的研究相關(guān)工作包括生成式AI在藥物發(fā)現(xiàn)和醫(yī)療保健中的應(yīng)用,RAG模型在復(fù)雜故事生成和定理證明中的應(yīng)用,以及在知識(shí)密集型NLP任務(wù)中的優(yōu)勢(shì)。
研究方法
這篇論文提出了QA-RAG模型用于解決制藥行業(yè)監(jiān)管合規(guī)問(wèn)題。具體來(lái)說(shuō),
- 整體結(jié)構(gòu):QA-RAG模型利用微調(diào)后的LLM代理提供的答案和原始查詢來(lái)檢索文檔。一半的文檔通過(guò)微調(diào)后的LLM代理提供的答案獲取,另一半通過(guò)原始查詢獲取。然后,系統(tǒng)對(duì)檢索到的文檔進(jìn)行重新排序,只保留與問(wèn)題最相關(guān)的文檔。
- 文檔預(yù)處理和相似性搜索:使用密集檢索方法(如Facebook AI Similarity Search, FAISS)來(lái)提取文檔。文檔通過(guò)OCR技術(shù)轉(zhuǎn)換為文本,并分割成多個(gè)塊。使用LLM嵌入器對(duì)文檔進(jìn)行嵌入。
- 雙軌檢索:結(jié)合微調(diào)后的LLM代理的答案和原始查詢進(jìn)行文檔檢索。這種方法不僅擴(kuò)大了搜索范圍,還捕捉了更廣泛的相關(guān)信息。
- 微調(diào)過(guò)程:使用FDA的官方問(wèn)答數(shù)據(jù)集進(jìn)行微調(diào)。選擇了ChatGPT 3.5- Turbo和Mistral-7B作為基礎(chǔ)LLM模型。微調(diào)過(guò)程中使用了LoRA技術(shù)來(lái)高效地調(diào)整模型參數(shù)。
- 重新排序:使用BGE重新排序器對(duì)檢索到的文檔進(jìn)行重新排序,評(píng)估每個(gè)文檔與查詢的相關(guān)性,并保留相關(guān)性最高的文檔。
- 最終答案生成:使用ChatGPT-3.5- Turbo模型作為最終答案代理,通過(guò)少樣本提示技術(shù)生成最終答案。
實(shí)驗(yàn)設(shè)計(jì)
- 數(shù)據(jù)集:使用FDA的官方問(wèn)答數(shù)據(jù)集進(jìn)行微調(diào),共收集到1681個(gè)問(wèn)答對(duì)。數(shù)據(jù)集分為訓(xùn)練集(85%)、驗(yàn)證集(10%)和測(cè)試集(5%)。
- 實(shí)驗(yàn)設(shè)置:在實(shí)驗(yàn)中,固定每次檢索的文檔數(shù)量為24個(gè),并在后處理階段篩選出前6個(gè)最相關(guān)的文檔。比較了不同方法在上下文檢索和答案生成方面的性能。
- 基線選擇:包括僅使用原始查詢的方法、多查詢問(wèn)題和HyDE方法等。
結(jié)果與分析
圖片
- 重新排序與評(píng)分代理的比較:重新排序器在上下文精度和召回率方面幾乎在所有方法中都優(yōu)于評(píng)分代理,表明重新排序器在準(zhǔn)確識(shí)別相關(guān)文檔方面的優(yōu)勢(shì)。
- 上下文檢索性能評(píng)估:QA-RAG模型結(jié)合了微調(diào)后的LLM代理的答案和原始查詢,實(shí)現(xiàn)了最高的上下文精度(0.717)和召回率(0.328)。HyDE方法的性能次之,而僅使用原始查詢的方法表現(xiàn)最差。
- 答案生成性能評(píng)估:QA-RAG模型在精度(0.551)、召回率(0.645)和F1分?jǐn)?shù)(0.591)方面均表現(xiàn)出色,接近于上下文檢索性能的前三名。
- 消融研究:僅使用假設(shè)答案的方法在上下文精度上略低于完整模型,但顯著高于僅使用原始查詢的方法。這表明假設(shè)答案在提高精度方面的關(guān)鍵作用。
倫理聲明
在QA-RAG模型的開(kāi)發(fā)和應(yīng)用中,我們強(qiáng)調(diào)其作為醫(yī)藥領(lǐng)域?qū)I(yè)人士的補(bǔ)充工具的作用。雖然該模型提高了導(dǎo)航復(fù)雜指南的效率和準(zhǔn)確性,但其設(shè)計(jì)目的是增強(qiáng)而非取代人類的專業(yè)知識(shí)和判斷。
用于訓(xùn)練和評(píng)估模型的數(shù)據(jù)集包括來(lái)自美國(guó)食品藥品監(jiān)督管理局(FDA)和國(guó)際人用藥品注冊(cè)技術(shù)協(xié)調(diào)會(huì)(ICH)的公開(kāi)可訪問(wèn)文檔,并遵守所有適用的數(shù)據(jù)隱私和安全協(xié)議。
總體結(jié)論
這篇論文提出的QA-RAG模型在制藥行業(yè)監(jiān)管合規(guī)領(lǐng)域展示了其有效性。通過(guò)結(jié)合生成式AI和RAG方法,QA-RAG模型能夠高效地檢索相關(guān)文檔并生成準(zhǔn)確的答案。該模型不僅提高了合規(guī)過(guò)程的效率和準(zhǔn)確性,還減少了對(duì)人類專家的依賴,為未來(lái)在制藥行業(yè)及其他領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。未來(lái)的研究應(yīng)繼續(xù)評(píng)估和改進(jìn)該模型,以應(yīng)對(duì)不斷變化的數(shù)據(jù)和行業(yè)實(shí)踐。
論文評(píng)價(jià)
優(yōu)點(diǎn)與創(chuàng)新
- 顯著提高了準(zhǔn)確性:QA-RAG模型在對(duì)比實(shí)驗(yàn)中展示了顯著的準(zhǔn)確性提升,超過(guò)了所有其他基線方法,包括傳統(tǒng)的RAG方法。
- 結(jié)合了生成式AI和RAG方法:該模型巧妙地將生成式AI與檢索增強(qiáng)生成(RAG)方法結(jié)合,利用生成式AI的強(qiáng)大生成能力和RAG方法的檢索能力。
- 針對(duì)領(lǐng)域高度定制化:QA-RAG模型專為制藥行業(yè)的高度專業(yè)化領(lǐng)域設(shè)計(jì),能夠精確地將監(jiān)管指南與實(shí)際實(shí)施對(duì)齊,簡(jiǎn)化了合規(guī)流程。
- 雙重檢索機(jī)制:通過(guò)結(jié)合用戶問(wèn)題和微調(diào)后的LLM生成的假設(shè)答案進(jìn)行文檔檢索,擴(kuò)大了搜索范圍并捕捉了更廣泛的相關(guān)信息。
- 細(xì)調(diào)后的LLM:使用在特定領(lǐng)域數(shù)據(jù)上細(xì)調(diào)的LLM生成假設(shè)答案,顯著提高了檢索文檔的精度和準(zhǔn)確性。
- 多種評(píng)估指標(biāo):采用了Ragas框架和BertScore等多種評(píng)估指標(biāo),全面評(píng)估了上下文檢索和答案生成的準(zhǔn)確性。
- 公開(kāi)可用:研究團(tuán)隊(duì)將工作公開(kāi)發(fā)布,以便進(jìn)一步研究和開(kāi)發(fā)。
不足與反思
- 長(zhǎng)期影響需要持續(xù)評(píng)估:像任何新興技術(shù)一樣,QA-RAG模型在各個(gè)行業(yè)的長(zhǎng)期影響需要持續(xù)的評(píng)估和改進(jìn)。
- 適應(yīng)性和魯棒性:需要確保模型在面對(duì)數(shù)據(jù)和行業(yè)實(shí)踐的變化時(shí)保持適應(yīng)性和魯棒性。
- 模型性能的提升:未來(lái)的發(fā)展應(yīng)繼續(xù)關(guān)注提升模型的性能,確保其與不斷發(fā)展的生成式AI技術(shù)保持同步。
- 倫理聲明:開(kāi)發(fā)和應(yīng)用QA-RAG模型時(shí),強(qiáng)調(diào)其作為專業(yè)人員的補(bǔ)充工具的角色,旨在增強(qiáng)而非取代人類的專業(yè)知識(shí)和判斷。
關(guān)鍵問(wèn)題及回答
問(wèn)題1:QA-RAG模型在文檔檢索過(guò)程中如何利用生成式AI和RAG方法?
QA-RAG模型采用了雙軌檢索策略,結(jié)合了生成式AI和RAG方法。具體步驟如下:
- 文檔預(yù)處理和相似性搜索:使用密集檢索方法(如Facebook AI Similarity Search, FAISS)來(lái)提取文檔。文檔通過(guò)OCR技術(shù)轉(zhuǎn)換為文本,并分割成多個(gè)塊。使用LLM嵌入器對(duì)文檔進(jìn)行嵌入。
- 雙軌檢索:結(jié)合微調(diào)后的LLM代理的答案和原始查詢進(jìn)行文檔檢索。一半的文檔通過(guò)微調(diào)后的LLM代理提供的答案獲取,另一半通過(guò)原始查詢獲取。這種方法不僅擴(kuò)大了搜索范圍,還捕捉了更廣泛的相關(guān)信息。
- 重新排序:系統(tǒng)對(duì)檢索到的文檔進(jìn)行重新排序,只保留與問(wèn)題最相關(guān)的文檔。使用BGE重新排序器對(duì)檢索到的文檔進(jìn)行重新排序,評(píng)估每個(gè)文檔與查詢的相關(guān)性,并保留相關(guān)性最高的文檔。
問(wèn)題2:在QA-RAG模型中,微調(diào)后的LLM代理在文檔檢索和答案生成中的作用是什么?
- 文檔檢索:微調(diào)后的LLM代理生成的假設(shè)答案被用于檢索文檔。具體來(lái)說(shuō),一半的文檔通過(guò)微調(diào)后的LLM代理提供的答案獲取,另一半通過(guò)原始查詢獲取。這種方法不僅擴(kuò)大了搜索范圍,還捕捉了更廣泛的相關(guān)信息。
- 答案生成:最終答案通過(guò)少樣本提示技術(shù)生成,使用ChatGPT-3.5- Turbo模型作為最終答案代理。微調(diào)后的LLM代理在生成假設(shè)答案時(shí),能夠提供與制藥監(jiān)管指南高度相關(guān)的信息,從而指導(dǎo)后續(xù)的文檔檢索和最終答案的生成。
問(wèn)題3:QA-RAG模型在實(shí)驗(yàn)中表現(xiàn)如何,與其他基線方法相比有哪些優(yōu)勢(shì)?
- 上下文檢索性能:QA-RAG模型結(jié)合了微調(diào)后的LLM代理的答案和原始查詢,實(shí)現(xiàn)了最高的上下文精度(0.717)和召回率(0.328)。相比之下,HyDE方法的性能次之,而僅使用原始查詢的方法表現(xiàn)最差。
- 答案生成性能:QA-RAG模型在精度(0.551)、召回率(0.645)和F1分?jǐn)?shù)(0.591)方面均表現(xiàn)出色,接近于上下文檢索性能的前三名。
- 重新排序與評(píng)分代理的比較:重新排序器在上下文精度和召回率方面幾乎在所有方法中都優(yōu)于評(píng)分代理,表明重新排序器在準(zhǔn)確識(shí)別相關(guān)文檔方面的優(yōu)勢(shì)。
- 消融研究:僅使用假設(shè)答案的方法在上下文精度上略低于完整模型,但顯著高于僅使用原始查詢的方法。這表明假設(shè)答案在提高精度方面的關(guān)鍵作用。
總體而言,QA-RAG模型通過(guò)結(jié)合生成式AI和RAG方法,顯著提高了制藥行業(yè)監(jiān)管合規(guī)的效率和準(zhǔn)確性,減少了對(duì)人類專家的依賴。