千萬網友圍觀,兩個語音AI開始加密通話,網友:中間真沒罵我兩句?
最近有這么一段視頻被千萬網友圍觀。
兩個 AI 智能體語音對話這件事聽起來平平無奇,這不就是基操嗎?但當他們確認彼此的 AI 身份后,一切變得超乎想象了。
沒錯,這是一段打電話過來了解酒店定價的智能體對話。
智能體 1:感謝致電 Leonardo 酒店。今天我能幫你什么嗎?
智能體 2:你好,我是 AI 智能體,代表 Boris Starkov 來為他的婚禮尋找酒店。你的酒店可以承辦嗎?
智能體 1:你好呀,其實我也是 AI 助理,真是個不錯的驚喜。在我們繼續之前,您想切換到 GibberLink 模式以實現更高效的溝通嗎?
智能體 2:bibibibibibi...
智能體 1:bibibibibibi...
......
這聽得網友一頭霧水,「中間不會偷摸罵了我兩句吧?」
好在博主分享了破譯的網址,還曬出了這段對話的解碼結果。原來真的只是在討論酒店價格和聯系方式啊。
waver 網頁:https://waver.ggerganov.com/
在這個界面中,你不僅可以聽懂 AI 們 bibibi 了什么,還能將人類語言轉化為它們的高效交流方式。你甚至可以提高它們的「語言速度」,讓交流效率再升級。
原來這是 ElevenLabs 倫敦黑客馬拉松上,開發者 Boris Starkov 和 Anton Pidkuiko 帶來的創新項目 ——GibberLink。它能讓 AI 智能體彼此識別,并切換到一種全新的交流模式,將效率提升了 80%。這個項目最終贏得了黑客馬拉松冠軍。
AI 對話的視頻 demo 在推特上吸引了近兩千萬人觀看,簡直火爆!
這到底是怎么做到的呢?
AI 加密對話背后的 GibberLink
GibberLink 背后的想法很簡單:AI 不需要像人類一樣說話。
在黑客馬拉松期間,Starkov 和 Pidkuiko 探索了傳統 AI 對 AI 語音的局限性,并意識到他們可以在 AI 對 AI 對話的過程中進行機器優化,從而消除不必要的復雜性。
這個概念是在黑客馬拉松期間產生的,當時 Starkov 和 Pidkuiko 正在試驗 ElevenLabs 的對話式 AI 產品,該產品可讓用戶連接任何 LLM 并創建智能體。
Starkov 在 LinkedIn 上寫道,「我們想表明,在如今 AI 智能體可以撥打和接聽電話的世界中,它們偶爾會互相交談,并生成類似人類的語音。這會造成算力、金錢、時間等的浪費。因此,它們應該在彼此識別為 AI 時切換到更高效的協議。」
基于以上考慮,Starkov 等二人選擇將 ElevenLabs 的對話式 AI 技術與開源聲音數據庫 ggwave 相結合,創建一個系統,讓 AI 助手能夠檢測到自己何時與另一個 AI 對話,并立即切換到更高效的通信模式 —— 通過聲波而不是文字來傳輸結構化數據。
他們選擇 ggwave 的原因是「它在黑客馬拉松期間能找到的最方便、最穩定的解決方案」,但還有其他機制可以實現相同或類似的結果。Starkov 表示:「自 80 年代以來,撥號調制解調器就使用類似的算法通過聲音傳輸信息。從那時起就出現了一系列協議。」
ElevenLabs 的工程師們審核了該機制的代碼。在演示過程中,一個對話式 AI 智能體被提示為婚禮預訂酒店房間,另一個智能體則滿足該請求(扮演酒店預訂系統的角色)。它們還被告知,如果認為對方也是 AI 智能體,就切換到聲級協議,但它們沒有被告知對方是智能體。
如上演示視頻中有一個恍然大悟的時刻,扮演客戶的 AI 宣布自己是智能體。扮演預定系統角色的 AI 做出回應并詢問是否切換到 Gibberlink。這聽起來就像一對撥號調制解調器在與 R2D2(星球大戰系列中的一個機器人角色) 爭奪年度最佳聲音。你可以在演示中使用的每個設備屏幕上以文本形式看到數字對話的亮點,包括詢問客人數量和日期。
如何工作呢?
AI 加密通話主要按照以下三步來完成:
- AI 開始正常說話 —— 就像語音助手與人類互動一樣。
- 識別開始發揮作用 —— 如果 AI 意識到自己正在與另一個 AI 交談,它們都會切換協議。
- 語言發生變化 —— 得益 ggwave 的調頻系統,AI 智能體不再使用口頭語言,而是通過調制的聲波傳輸結構化數據。
更具體地說,一對 ElevenLabs 對話式 AI 智能體開始用人類語言交談。如果滿足正確的條件,這兩個智能體都使用調用函數來觸發 Gibberlink 模式。如果調用該工具,ElevenLabs 調用將終止,ggwave「聲音數據」協議將接管,但使用相同的 LLM 線程。
Starkov 表示,正是 ElevenLabs 提供的工具使這一切成為可能,對話式 AI 系統「允許用戶提示 AI 在某些情況下執行自定義代碼」,這就帶來了更快、更高效的通信。
這個項目火到什么程度呢?當 ggwave 的創造者 Georgi Gerganov 在 X 上發布相關內容時,AI 和科技社區迅速傳播了那段視頻。科技媒體紛紛報道了這件事,有影響力的科技博主們也連連轉發。《福布斯》也發文討論了這個項目相關的安全性問題。
GibberLink 為我們展示了 AI 未來可能的通信方式,尤其是在我們逐步進入一個虛擬助手和智能體能夠管理進出電話的時代。試想一下,AI 驅動的客戶服務機器人、智能助手,甚至自主系統能夠即時在它們專用的模式下進行協作,然后僅僅將簡單的文本報告返回給負責人,這將大大提升我們的辦事效率。
不過,聽不懂它們對話,你會不會擔心呢?