成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

IBM Granite 3.3:語音識別、推理增強與RAG的完美融合 原創

發布于 2025-4-23 06:57
瀏覽
0收藏

在人工智能的浪潮中,企業對靈活、高效且透明的模型需求日益增長。然而,現有的解決方案往往難以同時滿足這些要求。開源模型可能缺乏特定領域的功能,而專有系統有時會限制訪問或適應性。這種差距在涉及語音識別、邏輯推理和檢索增強生成(RAG)的任務中尤為明顯,技術碎片化和工具鏈不兼容導致了操作瓶頸。

4月22日,IBM帶來了全新的Granite 3.3,這是一套專為企業應用設計的開源基礎模型,涵蓋了語音處理、推理能力和檢索機制的升級。Granite Speech 3.3 8B是IBM首個開源的語音轉文本(STT)和自動語音翻譯(AST)模型,它在轉錄準確性和翻譯質量上超越了基于Whisper的系統。該模型能夠處理長音頻序列,減少人工切割引入的誤差,提升了在實際場景中的可用性。

語音識別與翻譯:Granite Speech 3.3 8B的突破

Granite Speech 3.3 8B是一個緊湊且成本高效的音頻輸入(和文本輸入)、文本輸出的STT模型,專為企業應用中處理語音輸入而設計,并針對自動語音識別(ASR)和自動語音翻譯(AST)進行了優化。在轉錄任務中,Granite Speech 3.3 8B在多個知名公共數據集的測試中,持續展現出比領先的開源和閉源模型更高的準確性。

IBM Granite 3.3:語音識別、推理增強與RAG的完美融合-AI.x社區

在翻譯方面,Granite Speech 3.3 8B能夠將英語自動翻譯成多種語言,包括法語、西班牙語、意大利語、德語、葡萄牙語、日語和普通話。在IBM對AST性能的測試中,Granite Speech 3.3 8B在CoVost數據集支持的語言上,與OpenAI的GPT-4o和Google的Gemini 2.0 Flash等領先的專有模型保持同步。更多關于翻譯性能的信息可以在模型的Hugging Face模型卡中找到。

架構與設計

從架構上看,Granite Speech 3.3由以下部分組成:

  • 語音編碼器:包含10個Conformer模塊,通過連接時序分類(CTC)在專注于ASR的數據集上進行訓練。
  • 語音投影器:這里是一個2層的Query Transformer(Q-former),它將音頻嵌入投影到一個可以被LLM解釋的空間。
  • LLM:即Granite 3.3 8B Instruct,具有128K的上下文長度。
  • LoRA適配器:當存在音頻數據時,應用于LLM的查詢和值投影矩陣。

與直接集成語音和文本的單次通過模型不同,Granite Speech 3.3采用兩次通過的設計。例如,要向模型詢問有關音頻文件的問題,需要先調用轉錄音頻,然后再提示模型查詢轉錄的文本。如果提示中包含“”標記和相應的.wav文件,Granite Speech將激活音頻編碼器、投影器和LoRA適配器。如果沒有,模型將僅以文本模式運行,使用Granite 3.3 Instruct 8B。

這種兩次通過的方法確保了Granite Speech 3.3 8B在文本查詢上的表現與其底層LLM(Granite 3.3 8B Instruct)一致,避免了多模態模型常見的基于文本的性能下降。只要提供了一個能夠正確服務文本和語音模型的推理平臺,開發者可以將Granite Speech 3.3 8B視為Granite 3.3 8B Instruct的一個版本,增加了音頻輸入能力。

與傳統的基于Whisper的ASR模型不同,Granite Speech 3.3可以接受任意長度的輸入。在測試中,該模型能夠在H100 80GB GPU上輕松處理一個20分鐘的音頻文件,而不是固定在30秒的窗口。在基于Whisper的模型中,超過最大時長的音頻文件必須被切割成30秒的片段,這通常會在這些30秒切割點附近引入不準確之處。一般來說,你不需要進行的人工切割越少,引入的不準確之處就越少。

盡管Granite Speech 3.3可以處理相當長的音頻輸入,但值得注意的是,該模型尚未針對長音頻數據進行微調。為了保持一致的準確性,建議每個離散音頻輸入單元的時長限制為1分鐘。

改進方向

Granite Speech 3.3只是IBM探索Granite系列音頻能力的開端。正在進行的研究旨在為未來的版本(特別是在Granite 4中)增強Granite Speech,包括:

  • 多語言編碼:目前,Granite Speech 3.3的音頻編碼器僅支持英語。未來的一個重要步驟是開發能夠處理多種語言并敏感于副語言現象的音頻編碼器,從而實現真正的多語言輸入。
  • 精細化數據配方:未來的訓練計劃將納入更多且更高質量的訓練數據,其中針對特定用例的合成數據生成將發揮重要作用。我們還在嘗試額外的微調和數據平衡步驟。
  • 早期模態融合:我們正在探索實現一個更統一的結構,將音頻特征整合到未來Granite模型的所有訓練階段。
  • 情感檢測:未來的Granite Speech模型將通過訓練我們的聲學編碼器對非詞匯音頻事件更加敏感,從而支持語音情感識別(SER)能力。

文本推理與FIM能力:Granite 3.3 Instruct的升級

Granite 3.3 8B Instruct和Granite 3.3 2B Instruct是IBM最新的僅文本指令調優模型,它們增加了填充中間(FIM)能力,并繼續完善在Granite 3.2中引入的推理能力。

我們還發布了它們的基礎模型對應版本——Granite 3.3 8B Base和Granite 3.3 2B Base,它們取代了Granite 3.1的前輩,為開發者提供了訪問我們FIM能力模型的機會,以便他們進行自己的微調工作。

填充中間(FIM)

自回歸LLM(通常用于文本生成的LLM)本質上是從左到右移動的。它們通過自監督學習進行訓練,以迭代預測序列中的下一個標記,基于前面標記的信息,直到序列被認為完成。盡管這種設計適用于各種生成任務,但它在另一種任務上存在不足:根據前面和后面的標記預測正確的標記。換句話說,傳統的自回歸LLM無法“填充中間”。

要將自回歸模型適應填充中間,需要重新設計訓練任務,以“欺騙”LLM使用其內在的左到右預測能力來預測中間的標記。這通常需要將一個樣本段落劃分為前綴(前面的標記)、后綴(后面的標記)和中間(需要通過填充預測的標記),然后重新排列段落,使模型在被要求預測中間標記之前,同時提供前綴和后綴。Granite 3.3利用專用標記,使模型能夠基于前綴和后綴生成內容。

FIM有廣泛的應用場景,特別是在編碼任務中,從代碼修復和錯誤連接到重構,再到快速生成樣板代碼,以及啟用函數參數或文檔字符串的插入。

增強推理

Granite 3.2的重點是通過思考偏好優化(TPO)豐富指令模型的推理能力,以提高它們遵循復雜指令的能力,而不會犧牲一般性能。Granite 3.3 Instruct的重點是在保留這些收益的同時,豐富模型在復雜數學推理上的表現。

基于更新的Granite 3.3基礎模型,并通過多階段強化學習使用TPO和組相對策略優化(GRPO)進行微調,Granite 3.3 Instruct模型在與“推理”能力相關的高技術基準測試中表現出顯著的改進。

IBM Granite 3.3:語音識別、推理增強與RAG的完美融合-AI.x社區

Granite 3.3 8B在MATH500基準測試中的表現輕松超過了Anthropic的Claude 3.5 Haiku(64.2%)和Meta的Llama 3.1 8B Instruct(44.4%),與24B參數的Mistral Small 3(70.6%)大致相當,僅略低于Claude 3.5 Sonnet(72.4%)和OpenAI的GPT-4o Mini(72.6%)。

與Granite 3.2 Instruct模型一樣,“思考”功能可以輕松地開啟和關閉,允許開發者在需要時優先考慮增強的推理鏈(CoT),而在不需要時優先考慮成本效益和低延遲。

通過LoRA適配器優化RAG

為了增強現有的基于Granite的應用,并為下一代性能增強的LoRA適配器的開發提供信息,IBM還通過Granite Experiments(一個IBM研究用于測試開源想法的游樂場)發布了5個(主要是)RAG特定的LoRA適配器,用于Granite 3.2 8B Instruct。這些LoRA適配器中的每一個都利用模型的內在知識來啟用特定任務,例如重寫檢索查詢或檢測幻覺。

IBM研究開發了這些“傳統”LoRA適配器,并為每個適配器開發了使用一種新的低秩適應方法的對應版本,我們稱之為激活LoRA(aLoRA)。與標準LoRA適配器不同,IBM的aLoRA簡單地重用現有的鍵值(KV)緩存,避免了重新計算上下文(或“預填充”)的需要。激活LoRA在生成質量上與標準LoRA相當,同時提供了顯著的運行時和計算優勢。aLoRA的源代碼可以在這里找到。

RAG幻覺檢測

即使使用了RAG,LLM有時也會產生幻覺。當配備了RAG幻覺檢測LoRA時,模型將提供一個“忠實度分數”,范圍在0到1之間(以0.1為增量),反映了其輸出與檢索到的文檔中信息的接近程度。較低的忠實度分數表示更高的幻覺風險。如果問題無法通過可用信息回答,模型將輸出“無法回答”。

RAG查詢重寫

檢索引擎對包含所有相關信息的獨立查詢的響應結果,比對需要對話中早期上下文才能執行的查詢的響應結果要好得多。配備了查詢重寫LoRA后,模型將自動將任何非獨立用戶查詢重寫為一個完全自包含的查詢。例如,考慮以下對話:

用戶:“蘋果公司的CEO是誰?”模型:“蒂姆·庫克是蘋果公司的首席執行官。”用戶:“微軟呢?”模型會將用戶的第一個查詢原樣傳遞,但將第二個查詢重寫為“微軟公司的CEO是誰?”。在測試中,這種重寫將模型響應的相關性提高了多達21個百分點。

盡管它是為RAG設計的,但查詢重寫并不需要RAG文檔的存在:它也可以用于重寫用戶查詢以用于其他用例,例如工具調用。

RAG引用生成

當配備了RAG引用生成LoRA時,模型將為其輸出的每一句話生成引用(如果該句子受到任何外部來源的啟發)。每個句子級別的引用不僅注明了引用的來源,還包含了來自引用來源的一組句子,這些句子支持模型的相應輸出句子。

RAG可回答性預測

當配備了RAG可回答性預測LoRA時,模型將確定用戶的問題是否可以使用連接文檔中的信息回答。這種二元分類——“可回答”或“不可回答”——可以用于過濾掉無法回答的問題(減少幻覺)或提示模型以不同的方式重新查詢檢索器。

不確定性預測

對于每個模型輸出,不確定性LoRA(源自MIT-IBM沃森人工智能實驗室的AI模型校準研究)使模型能夠生成一個量化后的“確定性分數”,范圍從0到9(分別代表5%到95%的確定性)。該分數本質上反映了模型的響應在多大程度上得到了其訓練數據中信息的支持。

組合使用RAG LoRA

傳統的RAG涉及單次推理——一個基于特定上下文的簡單提示——產生單個模型輸出。我們建議在利用多個LoRA適配器進行多次推理的工作流程中使用這些LoRA,以產生最終的模型響應。

例如,你可以首先實現查詢重寫,以在必要時快速重寫初始提示,以實現最佳的檢索器準確性。一旦模型使用重寫后的提示生成了檢索增強的響應,你隨后可以實現RAG幻覺檢測,以驗證對檢索到的文檔信息的適當忠實度。如果忠實度分數低于可接受的閾值,你的工作流程可以指示模型重新采樣響應,直到忠實度分數超過該閾值。一旦不再檢測到幻覺,你可以啟用RAG引用,為用戶提供最終響應。

這本質上類似于RAG的測試時間計算擴展,通過多次推理來改進和豐富模型的最終輸出。我們期待看到開源社區如何實現和實驗這些新的LoRA適配器。有關RAG LoRA及其對模型性能的影響的更多信息,可以在隨附的技術論文中找到。

IBM Granite的未來展望

IBM研究團隊目前正在積極訓練Granite 4.0,這是Granite架構的重大演變,展示了在速度、上下文長度和容量方面的有希望的提升。盡管具體細節將在第二季度晚些時候公布,但客戶、合作伙伴和開發者可以相信,IBM將繼續致力于開發小而實用的模型,這些模型可以在低成本和低延遲下運行。

開始使用Granite 3.3

新的Granite 3.3 Instruct模型已在IBM watsonx.ai上線,這是IBM集成的端到端企業AI開發工作室。你可以在Granite Playground上嘗試Granite 3.3 Instruct 8B,并輕松實驗開啟和關閉“思考”功能。

Granite Speech 3.3 8B以及所有新發布的Granite模型和LoRA適配器都可以在Hugging Face上找到。部分Instruct模型也可以通過平臺合作伙伴(按字母順序排列)LMStudio、Ollama和Replicate獲得,未來還會有更多合作伙伴加入。

結語

Granite 3.3標志著IBM在開發強大、模塊化和透明的AI系統方面邁出了重要一步。此次發布針對語音處理、邏輯推理和檢索增強生成的關鍵需求,提供了基于可衡量改進的技術升級。aLoRA的引入為內存高效的檢索提供了支持,對填充中間任務的支持以及多語言語音建模的改進,使得Granite 3.3成為企業環境中的一個技術上合理的選擇。其開源發布進一步鼓勵了在更廣泛的AI社區中的采用、實驗和持續開發。


本文轉載自公眾號Halo咯咯    作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/_nCfhfkmJZicJniTocU3Dw??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-23 10:14:08修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 韩国精品在线观看 | 免费黄色av网站 | 国产精品美女一区二区 | 99免费视频| 日韩电影中文字幕 | 先锋资源亚洲 | 97精品超碰一区二区三区 | 日日骚视频 | 国产精品亚洲一区 | 狠狠操你| 欧美亚洲在线视频 | 365夜爽爽欧美性午夜免费视频 | 九九伊人sl水蜜桃色推荐 | 久久精品国产精品青草 | 国产激情91久久精品导航 | 欧美一区二区三区视频 | 成人在线免费av | 国产福利网站 | 国产精品黄视频 | 久久久久久久久久久久亚洲 | 成人av电影在线 | 久久精品国产一区二区电影 | 看亚洲a级一级毛片 | 麻豆一区| 综合精品久久久 | 欧美日一区二区 | 日韩三级在线 | 国产成人网 | 麻豆视频在线免费观看 | 久久久久亚洲 | 日韩一级免费 | 大学生a级毛片免费视频 | 精品成人免费一区二区在线播放 | 欧美精品在线视频 | 久久日韩精品 | 久久这里有精品 | 久久成人国产精品 | 欧美狠狠操 | 亚洲精品片| 91精品久久久久久久久久入口 | 视频一区 亚洲 |