剛剛,OpenAI開啟語音智能體時(shí)代,API價(jià)格低至每分鐘0.015美元
今天凌晨,OpenAI 突然開啟了新產(chǎn)品發(fā)布直播,這次新發(fā)布的內(nèi)容全是音頻模型。
據(jù)介紹,它們實(shí)現(xiàn)了新的 SOTA 水平,在準(zhǔn)確性和可靠性方面優(yōu)于現(xiàn)有解決方案——尤其是在涉及口音、嘈雜環(huán)境和不同語速的復(fù)雜場(chǎng)景中。這些改進(jìn)提高了語音 / 文本轉(zhuǎn)錄應(yīng)用的可靠性,新模型特別適合客戶呼叫中心、會(huì)議記錄轉(zhuǎn)錄等用例。
基于新的 API,開發(fā)人員第一次可以指示文本轉(zhuǎn)語音模型以特定方式說話,例如讓 AI「像富有同情心的客戶服務(wù)人員一樣說話」,從而為語音智能體開啟新的定制化維度,可以實(shí)現(xiàn)各種定制應(yīng)用程序。
OpenAI 還開放了一個(gè)網(wǎng)站,讓你可以直接測(cè)試音頻大模型的能力:https://www.openai.fm/
OpenAI 于 2022 年推出了第一個(gè)音頻模型,并一直致力于提高這些模型的智能性、準(zhǔn)確性和可靠性。借助新的音頻模型及 API,開發(fā)人員可以構(gòu)建更準(zhǔn)確、更強(qiáng)大的語音轉(zhuǎn)文本系統(tǒng)以及富有表現(xiàn)力、個(gè)性十足的文本轉(zhuǎn)語音聲音。
具體來說,新的 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型與原始 Whisper 模型相比改進(jìn)了單詞錯(cuò)誤率,提高了語言識(shí)別和準(zhǔn)確性。
gpt-4o-transcribe 在多個(gè)既定基準(zhǔn)中展示了比現(xiàn)有 Whisper 模型更好的單詞錯(cuò)誤率 (WER) 性能,實(shí)現(xiàn)了語音轉(zhuǎn)文本技術(shù)的重大進(jìn)步。這些進(jìn)步源于強(qiáng)化學(xué)習(xí)創(chuàng)新以及使用多樣化、高質(zhì)量音頻數(shù)據(jù)集進(jìn)行的大量中期訓(xùn)練。
這些新的語音-文本模型可以更好地捕捉語音的細(xì)微差別,減少誤認(rèn),并提高轉(zhuǎn)錄可靠性,尤其是在涉及口音、嘈雜環(huán)境和不同語速的具有挑戰(zhàn)性的場(chǎng)景中。
幾種模型的單詞錯(cuò)誤率(越低越好)。
在 FLEURS 上,OpenAI 的模型實(shí)現(xiàn)了更低的 WER 和強(qiáng)大的多語言性能。WER 越低越好,錯(cuò)誤越少。
OpenAI 還推出了一個(gè)可操縱性更好的新 gpt-4o-mini-tts 模型。在其之上,開發(fā)人員第一次可以「指導(dǎo)」模型,不僅可以指導(dǎo)模型說什么,還可以指導(dǎo)模型如何說,從而為大量用例提供更加定制化的體驗(yàn)。該模型可在 text-to-speech API 中使用。不過目前,這些文本轉(zhuǎn)語音模型僅限于人工預(yù)設(shè)的聲音,且受到 OpenAI 的監(jiān)控。
就在昨天,OpenAI 推出的「最貴大模型 API」o1-pro API 還因?yàn)槊堪偃f token 收費(fèi) 600 美元而遭到了 AI 社區(qū)的廣泛吐槽。今天 OpenAI 推出的三款語音 API 價(jià)格倒是保持了業(yè)界平均水準(zhǔn):gpt-4o-mini-tts 的百萬 token 文本輸入價(jià)格是 $0.60,音頻輸出價(jià)格為 $12.00;gpt-4o-transcrib 文本輸入價(jià)格是 $2.50,音頻輸入價(jià)格 $10.00,音頻輸出價(jià)格 $6.00;gpt-4o-mini-transcribe 的文本輸入價(jià)格是 $1.25,音頻輸入價(jià)格 $5.00,音頻輸出價(jià)格 $3.00。
因此今天的發(fā)布也受到了人們的歡迎。
OpenAI 的新音頻模型基于 GPT?4o 和 GPT?4o-mini 架構(gòu),并在專門的以音頻為中心的數(shù)據(jù)集上進(jìn)行了廣泛的預(yù)訓(xùn)練,這對(duì)于優(yōu)化模型性能至關(guān)重要。這種有針對(duì)性的方法可以更深入地了解語音細(xì)微差別,并在與音頻相關(guān)的任務(wù)中實(shí)現(xiàn)出色的性能。
在模型訓(xùn)練中,OpenAI 增強(qiáng)了提煉技術(shù),使知識(shí)從最大的音頻模型轉(zhuǎn)移到了更小、更高效的模型上。利用先進(jìn)的自我博弈方法,OpenAI 的提煉數(shù)據(jù)集有效地捕捉了真實(shí)的對(duì)話動(dòng)態(tài),復(fù)制了真正的用戶助手交互,這有助于小型模型提供出色的對(duì)話質(zhì)量和響應(yīng)能力。
OpenAI 的語音轉(zhuǎn)文本模型集成了大量強(qiáng)化學(xué)習(xí),將轉(zhuǎn)錄準(zhǔn)確性推向了最先進(jìn)的水平。據(jù)稱,這種方法大大提高了精度并減少了幻覺,使語音轉(zhuǎn)文本解決方案在復(fù)雜的語音識(shí)別場(chǎng)景中具有極強(qiáng)的競(jìng)爭(zhēng)力
這些發(fā)展代表了音頻建模領(lǐng)域的進(jìn)步,將創(chuàng)新方法與實(shí)用增強(qiáng)功能相結(jié)合,以增強(qiáng)語音應(yīng)用程序的性能。
這些新的音頻模型現(xiàn)在可供所有開發(fā)人員使用:https://platform.openai.com/docs/guides/audio
對(duì)于已經(jīng)使用基于文本的模型構(gòu)建對(duì)話體驗(yàn)的開發(fā)人員,添加 OpenAI 語音轉(zhuǎn)文本和文本轉(zhuǎn)語音模型是構(gòu)建語音智能體的最簡(jiǎn)單方法。OpenAI 發(fā)布了與 Agents SDK 的集成以簡(jiǎn)化此開發(fā)過程。對(duì)于希望構(gòu)建低延遲語音轉(zhuǎn)語音體驗(yàn)的開發(fā)人員,OpenAI 建議使用 Realtime API 中的語音轉(zhuǎn)語音模型進(jìn)行構(gòu)建。
在未來,OpenAI 計(jì)劃繼續(xù)提升音頻模型的智能性和準(zhǔn)確性,并探索允許開發(fā)人員使用自定義聲音構(gòu)建更加個(gè)性化體驗(yàn)的方法。包括視頻等更多模態(tài)的能力也在研發(fā)過程當(dāng)中。