字節跳動發布AI同傳黑科技:2秒延遲實時翻譯,0樣本克隆你的聲音
剛剛,字節跳動Seed團隊放了個大招——正式推出端到端同聲傳譯模型 Seed LiveInterpret 2.0。
?
這是首個在翻譯準確率、語音延遲與聲音復刻三方面同時逼近專業同傳表現的產品級中英語音同傳系統。
?
要知道,之前的初代模型 CLASI 雖然解決了文本同傳的時延與專業性問題,可它不支持語音輸出。而這次的 2.0 版本,實現了質的飛躍。
?
它首次實現了 “邊聽邊說” 的語音到語音同傳,采用雙通路語音理解與生成架構,減少中間環節,處理效率和翻譯準確率雙雙提升。在中英互譯任務里,已經達到業界最優水平。?
?
實測中,它的語音翻譯延遲能低至 2 到 3 秒,比傳統機器同傳系統平均減少超 60% 等待時間,真正做到 “邊聽邊說”。為了讓翻譯更智能,延遲進一步壓縮,團隊引入強化學習機制,設計雙重獎勵機制,經過訓練優化,長文本中譯英任務里,語音輸出延遲從 3.90 秒降至 2.37 秒,翻譯質量得分也從 75.1 提升到 79.5 ,還能自適應調整節奏。?
?
更厲害的是,它有 0 樣本聲音復刻能力,實時采樣對話語音,就能用原聲輸出目標語種譯文,在多輪語音評測中表現突出。專業評測驗證,它的翻譯準確率達 74.8 分,譯音質量得分 66.3,遠超同類系統。
?
該系統現在通過火山引擎開放試用(模型叫“Doubao-同聲傳譯2.0”),據說8月底還會集成到Ola Friend耳機里。目前只支持中英互譯,但想想這個框架的潛力,以后擴展更多語言應該不是問題。
?
雖然目前只支持中英互譯,但這已經是 AI 同傳領域的重大突破了,感覺未來語言交流的隔閡真要被徹底打破了!
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦