比OpenAI的Whisper快50%，最新開源語音模型

Aceryt

發布于 2024-8-6 10:52

瀏覽

0收藏

生成式AI初創公司aiOla在官網開源了最新語音模型Whisper-Medusa，推理效率比OpenAI開源的Whisper快50%。

aiOla在Whisper的架構之上進行了修改采用了“多頭注意力”機制的并行計算方法，允許模型在每個推理步驟中預測多個token，同時不會損失性能和識別準確率。

開源地址：https://github.com/aiola-lab/whisper-medusa

huggingface：https://huggingface.co/aiola/whisper-medusa-v1

比OpenAI的Whisper快50%，最新開源語音模型-AI.x社區

傳統的Transformer架構在生成序列時，是遵循逐個token的順序預測過程。這意味著在生成新序列時，模型每次只能預測下一個token，然后將這個預測的token加入到序列中，再基于更新后的序列預測下一個token。

這雖然能夠確保生成序列的連貫性和上下文相關性，但也有一個非常明顯的缺陷——極大限制了模型的推理效率。

此外，由于每次只能處理一個 token ，模型難以捕捉到數據中的長程依賴關系，可能會忽略一些重要的全局信息，從而影響模型的整體性能和準確性。

比OpenAI的Whisper快50%，最新開源語音模型-AI.x社區

而Whisper-Medusa使用了10頭的多注意力機制，能各自獨立地計算注意力分布并行地處理輸入，然后將各自的輸出通過拼接的方式組合起來，形成一個多維度的向量。

隨后向量被送入全連接層進行進一步的處理，以生成最終的token預測。這種并行的數據處理方式不僅加快了模型的推理效率，還增加了模型的表達能力，因為每個注意力頭都可以專注于序列的不同子集，捕捉到更豐富的上下文信息。

比OpenAI的Whisper快50%，最新開源語音模型-AI.x社區

為了使多頭注意力機制在Whisper-Medusa模型中更高效地運行，aiOla采用了弱監督的方法，在訓練過程中凍結了原Whisper模型的主要組件，使用該模型生成的音頻轉錄作為偽標簽來訓練額外的token預測模塊。

使得模型即便沒有大量手動人工標注數據的情況下，依然能夠學習到有效的語音識別模式。

此外在訓練過程中，Whisper-Medusa的損失函數需要同時考慮預測的準確性和效率。一方面，模型需要確保預測的token序列與實際轉錄盡可能一致；

另一方面，通過多頭注意力機制的并行預測，模型被鼓勵在保證精度的前提下，盡可能地加快預測效率。

aiOla使用了學習率調度、梯度裁剪、正則化等多種方法，確保模型在訓練過程中能夠穩定收斂，同時避免過擬合性。

比OpenAI的Whisper快50%，最新開源語音模型-AI.x社區

業務場景方面， Whisper-Medusa能理解100多種語言，用戶可以開發音頻轉錄、識別等多種應用，適用于翻譯、金融、旅游、物流、倉儲等行業。

aiOla表示，未來會將Whisper-Medusa的多注意力機制擴展至20個頭，其推理效率將再次獲得大幅度提升。

比OpenAI的Whisper快50%，最新開源語音模型-AI.x社區

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/hyl6cJxlSD8jDRi7CzFFyg??

標簽

模型

開源

贊

回復

舉報

回復

相關推薦

TAVGBench: 文本生成語音-視頻最新基準

angel ? 3350瀏覽 ? 0回復
OpenAI最新套娃嵌入模型分析：256維的MTEB效果超過1536維

PaperAgent ? 5687瀏覽 ? 0回復
最新開源數據集，讓AI聊天更接近現實

Crystalcxt ? 2412瀏覽 ? 0回復
阿里新開源語音模型Qwen2-Audio ，實測優于 Gemini-1.5-pro，網友：離GPT-4o只差一步

51CTO技術棧 ? 3242瀏覽 ? 0回復
快手可靈團隊最新開源項目火了：大叔實時變身少女，GitHub狂攬7.5K星

Crystalcxt ? 3052瀏覽 ? 0回復
OpenAI今年虧損已達50億美元！看一下收支財務數據

51CTO技術棧 ? 2212瀏覽 ? 0回復
OpenAI發布最新大模型安全對齊獎勵方法——RBR

Aceryt ? 2743瀏覽 ? 0回復
ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準·好的圖像編輯方法！港大&牛津

angel ? 2762瀏覽 ? 0回復
終于來了，OpenAI測試GPT-4o高級語音模式！

Aceryt ? 2506瀏覽 ? 0回復
ECCV`24 | 比現有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優3D-GS分割求解器

angel ? 4021瀏覽 ? 0回復
VideoLLaMB：創新開源框架，引領多模態長視頻理解

穿越時空111 ? 2636瀏覽 ? 0回復
剛剛，OpenAI發布sCM提升50倍效率，擴散模型重大技術突破！

玄姐聊AGI ? 2266瀏覽 ? 0回復
Moonshine 語音模型：資源受限設備的語音識別超強 “芯” 動力！

穿越時空111 ? 2491瀏覽 ? 0回復
最新開源Auto-RAG：最低成本解決多跳問題

AIGC前沿技術追蹤 ? 4729瀏覽 ? 0回復
阿里巴巴語音實驗室發布開源語音處理框架ClearerVoice-Studio，支持語音增強、分離、目標說話人提取

Halo咯咯 ? 3489瀏覽 ? 0回復
谷歌AI發布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 6222瀏覽 ? 0回復
Meta開源多模式模型，輕松混合文本和語音

Aceryt ? 1971瀏覽 ? 0回復
OpenAI凌晨發布三款語音模型，語音AI Agent時代即將到來？

AI博物院 ? 1610瀏覽 ? 0回復
比DeepSeek快8倍！智譜AI開源6款模型，推理速度200 tokens/秒碾壓競品，價格僅1/30！

AI博物院 ? 2828瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

比OpenAI的Whisper快50%，最新開源語音模型

目錄