成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源版《Her》來了,技術報告已公開!大神Karpathy:它很有個性

人工智能 新聞
(Moshi)的性格非常有趣,它會突然斷斷續續,有時會無緣無故沉默……

大神Karpathy鼎力推薦,開源版「Her」Moshi再引關注!

(Moshi)的性格非常有趣,它會突然斷斷續續,有時會無緣無故沉默……

圖片

就像下面這樣,一位小哥在和Moshi聊天時,Moshi化身打工人,精神狀態十分美麗(doge)。

(一直向小哥抱怨壓力大,導致小哥完全插不進話)

據了解,Moshi是一款端到端實時音頻模型,于今年7月初由一家法國創業團隊Kyutai發布。

不僅發布后人人免費可玩,而且就在剛剛,Kyutai將Moshi的代碼、技術報告來了個大公開。

圖片

這波屬實驚喜了,當初搶先試玩的谷歌DeepMind研究員、ViT作者Lucas Beyer聞聲趕來:

(剛好)我最近就想知道這個問題

圖片

開源工程師Sebastian Rojo原地啟動好學模式。

是時候學起來了!

圖片

當然,一直慢騰騰的OpenAI再次被“當眾處刑”。(其高級語言模式7月底上線后,仍只面向小部分人開放)

驚人的!當我們仍在等待OpenAI的高級語音模式時,人們可以開始使用Moshi并進行構建。

圖片

Moshi技術細節大公開

話不多說,先來開個箱,看看Kyutai這次放出了哪些東西。

  • 一份長篇技術報告。揭露Moshi模型背后細節、權重、代碼;
  • GitHub官方倉庫
  • HuggingFace模型庫

首先來看模型。Kyutai這次發布了3個模型,分別是Moshiko、Moshika,以及Mimi流語音編解碼器。

Moshi的參數大約為7.69B,Moshiko/ka是Moshi對合成數據進行微調后的變體,分為男女兩個聲音。

讓它們自行對話, be like:

可以看出,它們都能在一臺MacBook上運行,且據介紹,這些模型在L4 GPU上實現了約200毫秒的延遲

圖片

至于變體的內存需求,bf16、8位和4位精度,對應的內存分別為16GB、8GB和4GB VRAM。

圖片

另外,Moshi使用了一個名為Mimi的流式神經音頻編解碼器,能夠處理24 kHz音頻(以1.1kbps的速度將24 kHz音頻壓縮至12.5Hz),并且支持多種預訓練模型。

Mimi受SpeechTokenizer啟發,通過蒸餾技術聯合建模語義和聲學信息,并且通過對抗性訓練提升了性能,專門用來和大語言模型協同工作。

圖片

其次,從官方公布的技術細節來看,Moshi項目主要由三個組件構成:

  • Helium語言模型(擁有70億參數并在2.1萬億tokens上進行訓練)
  • Mimi神經音頻編解碼器(能夠建模語義和聲學信息)
  • 一種新的多流架構(能夠在單獨的頻道上分別對用戶和Moshi的音頻進行建模)

圖片

展開來說,Moshi團隊對Helium進行了增強,采用了RQ-Transformer變體架構,這使得Helium能夠在不增加序列長度的情況下建模語義和聲學標記的層次結構。

官方自稱,他們對生成音頻的主要貢獻是多流建模技術(multi-stream modeling)。

能夠在每個時間步中堆疊Moshi和用戶的tokens,以模擬全雙工對話的動態,包括重疊、反向通道和中斷等。

還包括內心獨白技術(Inner Monologue),它進一步提高了生成語音的質量,通過預測時間對齊的文本來增強Moshi的智能性,同時保持與流媒體的兼容性。

圖片

此外,“內心獨白”的一個延伸是:通過調整音頻和文本標記的延遲,Moshi能夠實現流式TTS和ASR功能。

圖片

在大規模音頻預訓練后,官方利用自己的模型創建了20k小時的合成對話數據,用于評估Moshi在質量、音頻語言建模和口語問答方面的表現,以及進行了安全和量化分析。

評估結果顯示,Moshi在性能上優于之前發布的模型。

圖片

OpenAI版「Her」仍未開放

眼見Moshi這次來了個大公開,一眾網友又紛紛想起了OpenAI。

今年7月底,OpenAI高級語音模式面向部分plus用戶上線,一些試玩例子也隨之流出……

比如讓ChatGPT開口講中文,這濃濃的「歪果仁」口音是怎么回事。

再比如讓它來段繞口令,圍觀網友笑cry了。

一番試玩下來,網友們期待值拉滿。

然而,OpenAI的動作實在有億點慢了,當時曾計劃秋季時讓所有plus用戶都能用上高級語音模式。

圖片

然而至今沒有更多消息,相關話題的實時頁面下,隨處可見一片抱怨。

圖片
圖片

以至于Moshi發布后,再次有網友調侃:

開源總是勝利!

圖片

不過也有爆料稱,OpenAI可能會在9月24日發布高級語音模式。

一周之后咱們見分曉!

圖片

技術報告:https://kyutai.org/Moshi.pdfGitHub官方倉庫:
https://github.com/kyutai-labs/moshi
HuggingFace模型庫:
https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-24 11:13:14

2020-09-27 14:28:21

AI 數據人工智能

2021-04-16 16:21:02

鴻蒙HarmonyOS應用開發

2024-07-31 13:20:14

2021-12-23 10:20:12

Windows 11代碼Windows

2023-03-15 08:03:31

2025-01-15 10:02:09

APIVueDOM

2021-03-24 10:48:32

谷歌開源代碼

2021-11-08 10:15:50

代碼Windows 11Windows

2024-12-09 08:21:49

2009-06-24 10:53:38

2024-08-16 16:13:00

2022-11-29 07:48:16

2023-10-04 07:27:33

WebPhotoshop

2009-03-24 14:31:00

Linux開源AMD

2023-09-22 11:07:01

Fastbot

2021-07-29 17:37:37

微信安卓騰訊

2024-11-12 14:20:00

模型AI

2021-10-28 18:58:57

動態規劃數據結構算法

2024-08-14 14:30:00

AI訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久久久国产精品视频 | 99精品在线| 国产精品久久久久久久久久三级 | 亚洲人的av| 日韩www | 日本在线小视频 | 欧美日韩在线一区二区三区 | 日韩精品视频在线播放 | 黄色a级一级片 | 色欧美综合 | 欧美日韩精品久久久免费观看 | 成人国产免费视频 | 91精品中文字幕一区二区三区 | 欧美视频一区 | 男女羞羞视频在线看 | 91精品国产综合久久久久 | 新91 | 中文字幕电影在线观看 | 国产成人一区二区三区电影 | 久久精品亚洲一区 | 阿v视频在线观看 | 欧美国产视频 | 看一级黄色毛片 | 国产精品日韩欧美一区二区 | 国产福利91精品 | 色综合久 | 男插女下体视频 | 成人免费视频在线观看 | 日韩国产精品一区二区三区 | 久久综合一区二区三区 | 欧美成年网站 | 亚洲精品888 | 国产午夜精品一区二区三区在线观看 | 一级大黄 | 欧美无乱码久久久免费午夜一区 | 亚洲综合热 | 亚洲欧美在线观看视频 | 欧美色偷拍 | 欧美亚洲免费 | 精品一二三区 | 精品一区二区三区在线观看 |