搶先OpenAI發布Her,馬斯克圍觀的端到端實時音頻模型,前FAIR團隊創業打造
就在剛剛,法國創業團隊搶先OpenAI發布端到端實時音頻模型——Moshi。
官方直接秀了段現場演示:
好家伙,感覺語速比真人還快!甚至還學會了搶答:
很多時候我甚至還沒問完它就回答了我的問題!
圖片
Moshi主打發布即公開(免費),PyTorch之父也來祝賀,并透露團隊成員來自他在FAIR的前同事。
圖片
是的,Moshi也將走開源路線,網友們齊聚一堂吶喊:
圖片
終于有了能直接上手的東西,網友們自然也是火速開啟試玩。
這不,有網友就發現打工人Moshi竟主動抱怨:
工作太忙了,我累了
圖片
看來天下的打工人都一樣。[doge]
所以,喊累的Moshi究竟都會干啥?干的咋樣?
Moshi技能拉滿
首先,Moshi能夠帶著70種情緒和風格講話。
比如,用濃重的法國口音朗誦詩歌、假扮船長冒險,或者涼颼颼地講鬼故事……
而且谷歌DeepMind研究員、ViT作者Lucas Beyer還觀察到:
Moshi基本沒有延遲,甚至還打斷了演講者幾次
圖片
不過Beyer也指出,在蘋果電腦(MacBook)上的模型偶爾會錯誤地拒絕一些實時請求。
也許Kyutai對安全調整有點太急切了。
然而,這也證實了演示確實是實時的,甚至可能是自由發揮的。
圖片
另外,Moshi作為一款完全端到端的音頻模型,能在普通筆記本上使用。
Hugging Face聯合創始人Thomas Wolf點出了其中關鍵:
模型訓練流程和架構設計簡單且極具可擴展性,像Kyutai這樣只有8人以上的小團隊也能在4個月內建成。合成數據在這里起到了巨大的推動作用。
專注于本地設備,Moshi將無處不在。前沿模型構建者沒有動機讓你在本地運行較小的模型(按令牌計價……),但像Kyutai這樣的非營利組織有著非常不同的動機。
在保持Llama 8B或以上答案質量的同時,將延遲降至300毫秒以下,是提升交互性的關鍵因素,這是顛覆性的。
圖片
Kyutai的CEO Patrick Pérez也提到:
Moshi可以“邊說話邊思考”。
我們相信Moshi具有巨大潛力,可以改變我們與機器交流的方式。
不過也有網友試過后“質疑”發布會是否造假:
圖片
在他的演示中,Moshi已處于“精神崩潰”邊緣,一直在向小哥抱怨壓力大,導致小哥完全插不進話。
,時長02:31
這一抱怨也引來馬斯克的圍觀:
圖片
在小哥的評論區,網友竟紛紛對Moshi表示同情。
圖片
好的,只有小哥受傷的世界達成了。
誰發布了Moshi?
Moshi背后的團隊是Kyutai,一家位于巴黎的人工智能研究實驗室(非營利)。
Kyutai成立于2023年11月,致力于研究通用AI,投資主要來自歐洲實業資本。
公開資料顯示,Kyutai由Xavier Niel(法國億萬富翁、法國電信集團Iliad首席執行官)、Rodolphe Saadé (法國物流巨頭達飛集團CEO)和Eric Schmidt (前谷歌CEO)各出資1億歐元共同創立。
圖片
關于Moshi,官方介紹它由該實驗室的8人研究團隊耗時6個月從零開發。
圖片
在Kyutai官網,其團隊顯示有6位成員。
圖片
首席執行官Patrick Pérez,曾在微軟擔任研究員,谷歌學術主頁顯示其文章被引用4w+,研究領域包括計算機視覺、圖像處理、機器學習和人工智能。
圖片
Edouard Grave,職位名稱為Chief Scaling Officer(CSO),可能是一個專為大模型時代設置的職位了。谷歌學術顯示,他的主要研究領域包括機器學習、自然語言處理和人工智能。
圖片
首席科學家Hervé Jégou,加入Kyutai前先后在Facebook AI(8年3個月)和Meta(4年)擔任研究科學家,其研究領域涉及機器學習、人工智能、計算機視覺等。
圖片
首席技術官Laurent Mazaré,GitHub收獲了1.9K關注者,曾在DeepMind工作過1年,研究領域涉及深度學習、金融數學、理論計算機科學、密碼學和安全等。
圖片
Neil Zeghidour,職位名稱為Chief Modelling Officer(CMO),這也不是一個常見的企業高層管理職位。加入Kyutai前,他先后在Facebook(3年5個月,語音識別方向)和谷歌(4年9個月,一開始是Google Brain團隊的研究科學家)工作,研究領域包括機器學習、語音識別和音頻理解等。
圖片
Alexandre Défossez,職位名稱為Founding Scientist,加入Kyutai前是巴黎FAIR的一名研究科學家。研究重點是多模態LLMs,領導了音樂生成研究,并共同領導了AudioCraft框架(涉及Meta開源的一系列音頻模型和訓練方法)開發。他還與Jean Rémi King博士合作,研究非侵入性腦成像的腦活動解碼。
圖片
One More Thing
當Moshi已經飛入百姓家時,鴿王OpenAI再次推遲上線ChatGPT語音助手。
OpenAI表示,需要確保它能安全有效地處理來自數百萬用戶的請求,還需要一個月才能達到公司的發布標準。
圖片
嗯,估計要到7月底了!對此網友打趣道:
Kyutai推出Moshi基本上等于,把OpenAI還沒公開發布的客戶產品開源了,向Kyutai致敬。
圖片
愣著干啥?
試玩地址:https://moshi.chat/?queue_id=talktomoshi參考鏈接:
[1]https://x.com/soumithchintala/status/1808593284010213422[2]https://x.com/Thom_Wolf/status/1808532365720834085[3]https://x.com/benhylak/status/1808611023123067357[4]https://x.com/giffmana/status/1808482848808010149