對(duì)標(biāo)GPT-4o!不鎖區(qū)、支持手機(jī)、免費(fèi)使用,Moshi來啦!
7月4日凌晨,法國(guó)知名開源AI研究實(shí)驗(yàn)室Kyutai在官網(wǎng)發(fā)布了,具備看、聽、說多模態(tài)大模型——Moshi。
Moshi功能與OpenAI在5月14日展示的最新模型GPT-4o差不多,可以聽取人的語(yǔ)音提問后進(jìn)行實(shí)時(shí)推理回答內(nèi)容。但GPT-4o的語(yǔ)音模式要在秋天才能全面開放使用,而Moshi已經(jīng)提供使用了。
「AIGC開放社區(qū)」已經(jīng)親自測(cè)試,Moshi不鎖區(qū),填寫一個(gè)郵箱地址就能直接使用,無需任何等待。值得一提的是,Moshi是支持手機(jī)移動(dòng)端使用的,只不過對(duì)普通話支持較差,最好使用英語(yǔ)提問。
此外,Kyutai可能很快就會(huì)開源Moshi,公布代碼、模型權(quán)重和論文。
免費(fèi)體驗(yàn)地址:https://moshi.chat/?queue_id=talktomoshi
Moshi的使用流程非常簡(jiǎn)單,1)登錄https://moshi.chat/?queue_id=talktomoshi
2)填寫一個(gè)郵箱地址,然后點(diǎn)擊join。如果是手機(jī)登錄,系統(tǒng)會(huì)提示使用你的麥克風(fēng),因?yàn)檫@個(gè)產(chǎn)品對(duì)語(yǔ)音是一個(gè)硬性要求。如果你是PC端使用,也必須有麥克風(fēng),不然沒法使用。
「AIGC開放社區(qū)」的真實(shí)使用過程
3)開始語(yǔ)音輸入,你想提問的內(nèi)容就行了。
下面這個(gè)是官方展示的案例,根據(jù)多輪語(yǔ)音連續(xù)對(duì)話,主要讓Moshi用法語(yǔ)來一首關(guān)于巴黎的詩(shī);接著用竊竊私語(yǔ)的方式描述一個(gè)神秘故事。
Moshi完成的很出色,其擬人化語(yǔ)氣是一大特點(diǎn)機(jī)器味很少,這一點(diǎn)和GPT-4o有點(diǎn)像。
這個(gè)是模擬星際戰(zhàn)艦指揮官與航程的故事,主要詢問了一些到達(dá)目標(biāo)航程,周圍環(huán)境等內(nèi)容。(由于聽譯的可能理解的不太全~~)
「AIGC開放社區(qū)」也體驗(yàn)了一下,主要問了Moshi幾個(gè)簡(jiǎn)單問題:第一個(gè),法國(guó)巴黎有哪些著名景點(diǎn)?Moshi:埃菲爾鐵塔。
接著問,盧浮宮博物館有哪些著名的展覽物品?Moshi:世界名畫蒙娜麗莎的微笑。
又問了,巴黎有哪些標(biāo)志性建筑?Mosh:凱旋門,這是一個(gè)擁有悠久歷史的建筑。
由于Moshi的論文還沒有發(fā)布,「AIGC開放社區(qū)」就說一說自己的親身使用體驗(yàn)吧。
1)響應(yīng)速度超級(jí)快,本次測(cè)試使用的是國(guó)區(qū)線路,而Moshi的demo服務(wù)器在歐洲和美國(guó),但當(dāng)你用語(yǔ)音提問完問題后,幾乎0延遲就能馬上響應(yīng)你的提問。Moshi官方給出的理論延遲是160毫秒。
2)不支持中文普通話,這一點(diǎn)還是能理解的,畢竟Moshi面向的國(guó)外用戶群體,主流語(yǔ)言還是英語(yǔ),同時(shí)也支持法語(yǔ)。
3)回答內(nèi)容有限,Moshi雖然是語(yǔ)音輸出內(nèi)容,但詳細(xì)程度比ChatGPT那種純文本差好多,回答的內(nèi)容只能是輪廓大概,相信以后產(chǎn)品會(huì)迭代更多。
4)使用方便快捷,幾乎沒有繁瑣的注冊(cè)流程,你只需要提交一個(gè)郵箱即可,馬上就能幫助你非常方便。
5)Moshi聽和說的能力有了,看的能力還沒展示出來,這個(gè)功能估計(jì)以后也會(huì)添加吧,這樣整個(gè)輸出模式將更加完善。
6)這類產(chǎn)品對(duì)家教、教育行業(yè)是起到顛覆性作用,例如,讓家教老師幫你反復(fù)講解一道高數(shù)題,估計(jì)兩遍人就比較惱了,而AI可以幫你循環(huán)講解無數(shù)次,這對(duì)于教育幫助是巨大的。
7)期待國(guó)產(chǎn)類似的GPT-4o、Moshi產(chǎn)品出現(xiàn),最好再支持一些閩南話、粵語(yǔ)、四川話、東北話等有特色的地方語(yǔ)言,就像汽車導(dǎo)航那樣一定會(huì)非常有意思。
對(duì)于Moshi的發(fā)布,網(wǎng)友們還是相當(dāng)興奮的,在我們苦等GPT-4o的語(yǔ)音模式時(shí),Moshi橫空出現(xiàn),期待他們更好的表現(xiàn)。
在推理延遲方面,Moshi似乎比GPT-4o更好。這一點(diǎn)從實(shí)際操作來看,確實(shí)是很快的。
剛試了一下Moshi的產(chǎn)品,其高效的推理響應(yīng)以及低延遲,令人印象深刻,這就是我一直期待的產(chǎn)品。
繼續(xù)稱贊Moshi的低推理延遲。如果使用功能更高級(jí)的模型,即便推理時(shí)間長(zhǎng)一些也沒問題。確實(shí)現(xiàn)在,Moshi的回答內(nèi)容還是太寬泛了。
已經(jīng)有人急的不行,開始要源代碼了,你們可是開放AI研究實(shí)驗(yàn)室啊~
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
