成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<li id="oeisc"><dl id="oeisc"></dl></li>

<center id="oeisc"></center>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

LLM將成歷史？開源bGPT或顛覆深度學習范式：直接模擬二進制，開啟模擬數字世界新紀元！

作者：新智元 2024-03-13 10:43:28

人工智能新聞

新模型bGPT是一個基于字節的Transformer模型，能夠將不同類型的數據納入同一框架之下，可以生成文本、圖像和音頻，還能模擬計算機行為，數字世界將迎來真正的大一統？

微軟亞洲研究院推出的最新成果bGPT，這種基于字節的Transformer模型，為我們探索數字世界開辟了新的大門。

與傳統的基于詞表的語言模型不同，bGPT的獨特之處在于其對原始二進制數據的直接處理能力，不受特定格式或任務的限制，其目標是全面模擬數字世界。

論文：https://arxiv.org/abs/2402.19155

代碼：https://github.com/sanderwood/bgpt

模型：https://huggingface.co/sander-wood/bgpt

項目主頁：https://byte-gpt.github.io

研究團隊在其論文中展示了bGPT在建模上的巨大潛力，通過字節級處理，bGPT不僅能生成文本、圖像和音頻，還能模擬計算機行為——從格式轉換算法到CPU狀態的建模。將所有數據視為字節序列的做法，使bGPT能夠將不同類型的數據納入同一框架之下。

bGPT的論文一經發布，便在X（Twitter）上引發了廣泛的關注和討論，標志著深度學習范式轉變的可能性，使得模型能夠真正理解并模擬數字世界中的各種活動。

二進制數據：構成數字世界的基礎DNA

二進制數據是數字世界的基礎，從計算機處理器到我們日常使用的電子產品的操作系統，構成了所有數據、設備和軟件的核心。bGPT正是從這一點出發，旨在通過學習二進制數據序列來掌握數字系統的內部邏輯，以此來重建和模擬復雜的數字現象。

bGPT通過字節級的處理，不僅能應用于常規的AI生成和理解任務，還能處理更多的非傳統應用。例如，它能直接模擬MIDI——一種音樂傳輸和存儲的標準格式，這在之前的研究中由于MIDI的二進制本質而避免了直接建模。

但bGPT天生適合此類任務，能夠精確模擬音樂數據的轉換算法，將ABC記譜法轉換為MIDI格式時，達到極低的錯誤率（0.0011 BPB）。

在實際應用中，bGPT通常能夠準確地完成ABC符號與MIDI文件之間的轉換，有時甚至能糾正原始文件中的錯誤，使音樂轉換更加準確。

bGPT自動將ABC記譜法轉換成MIDI格式（上圖）與原MIDI數據（下圖）的對比，凸顯了關鍵的差異：雖然原MIDI數據中漏掉了一拍（見下圖），導致和弦伴奏斷開，但由bGPT轉換的結果（見上圖）正確填補了這一缺失，確保了和弦伴奏的流暢性。

研究團隊還將CPU建模作為硬件行為模擬的代表性任務：該任務要求模型接收低級機器指令序列作為輸入，其目標是準確預測每個指令執行后CPU狀態如何更新，直至程序停止。

在這個任務中，bGPT展現出超過99.99%的準確率，顯示了字節模型在處理原生二進制數據方面的強大能力和可擴展性。

在提供了程序和初始CPU狀態的情況下，bGPT能夠準確地預測CPU執行的完整過程，直到程序終止。在這個示例中，bGPT精確地處理了所有CPU指令。為了便于理解，這里將實際的字節序列轉換成了更易讀的格式。

從字節到萬物：突破邊界，向著統一的數據建模進發

bGPT不僅能處理原生二進制數據，還能將多種數據類型融合進一個統一的模型架構中，視一切數據為字節序列。

這種方法不但簡化了數據建模流程，還使得從任何數據源的整合變得輕而易舉，且無需為特定數據類型定制模型。

研究團隊在論文中舉例了傳統文本、圖像及音頻文件，展現了bGPT在統一數據建模方面的能力。他們訓練的bGPT模型擁有約1億參數。

實驗結果表明，在與GPT-2（文本模型）、ViT（視覺模型）和AST（音頻模型）等同規模模型的比較中，bGPT在不同數據類型上均展現出了可媲美的性能。

bGPT在文本生成方面的表現非常出色。得益于其字節級的文本編碼，該模型無需依賴詞匯表，從而能支持所有語言。

它的分層Transformer架構，盡管計算開銷與GPT-2相近，卻能生成長達8KB的文本，大大超出了GPT-2的長度限制。在經過Wikipedia數據進行預訓練后，bGPT生成的文本在風格和主題上都與GPT-2不相上下，證明了其在文本生成方面的強大能力。

bGPT在Wikipedia數據集上進行預訓練，生成的文本樣例質量和主題一致性與GPT-2相當。

bGPT可以通過預測圖像字節序列中的下一個字節來生成圖像。該模型在ImageNet數據集上進行了預訓練，生成的圖像分辨率為32x32像素。

雖然在當前規模下，通過字節序列準確捕捉圖像的二維空間關系有所困難，導致生成的圖像存在偽影和噪點，但紋理和光影效果通常還是比較準確的。

此外，這些生成的圖像均能被正常解碼為BMP文件。研究團隊指出，通過擴大bGPT的規模，類似于OpenAI開發的iGPT在像素序列建模方面的方法，或許可以實現更高質量、更逼真的圖像生成。

這些是由在ImageNet數據集上進行預訓練的bGPT生成的一組圖像。雖然圖像的紋理和光影效果通常比較準確，但在這些生成的圖像中識別主要物體卻有一定難度。

bGPT將音頻數據視為字節序列，能生成1秒長、采樣率為8000 Hz的音頻樣本。

該模型在LibriSpeech數據集上完成了預訓練，并進一步在Speech Commands v2數據集上進行微調和演示。bGPT生成的音頻樣本保持了較高的準確度，其中一些樣本幾乎與真實音頻無法區分。以下是展示bGPT在音頻生成領域能力的示例集。

通過bGPT探索字節構成的數字世界

傳統語言模型，不管它們有多強大，主要專注于處理自然語言文本。bGPT模型通過基于字節的處理機制，打破了這種僅限于文本處理的局限性，開辟了一個全新的數據處理范疇。

這一進步讓bGPT有能力無縫地處理包括文本、圖像、音頻在內的各種數據類型，甚至能處理來自算法和硬件的原生二進制數據，為全面模擬和理解數字世界鋪平了道路。

雖然bGPT展現出了引人注目的能力，但其在計算開銷方面的局限性，如當前在常規顯卡上僅能處理最大8KB的字節序列，對于那些需要生成或處理大量數據的應用來說，構成了明顯的限制。未來的工作計劃將集中在開發更高效的算法和利用硬件的進步上，旨在提高處理更大規模數據序列的能力。

全球的技術愛好者們已經開始展望bGPT未來的潛力，從網絡修剪和自我學習的優化到超大規模網絡的自我重構能力，這些討論指向了一個共同的愿景：bGPT最終可能實現一個統一的模型，能夠處理和輸出所有類型的字節數據，真正成為數字世界的全面模擬器。

研究團隊已將bGPT的代碼和模型開源。這意味著你可以在自己的數據集上直接訓練bGPT，無需做出任何模型架構上的調整，便可探索字節模型在數字領域的廣闊前景。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产精品成人国产乱 | 国产成人免费视频网站高清观看视频 | 少妇av片 | 最新国产精品精品视频 | 国产精品国产三级国产aⅴ原创 | 午夜在线小视频 | 精品国产乱码久久久久久果冻传媒 | 免费观看黄a一级视频 | 亚洲精品v | 久久九九免费 | 欧美激情精品久久久久 | 一区二区日本 | 久久精品视频在线观看 | 国产成人99久久亚洲综合精品 | 国产乱码精品1区2区3区 | 天啪 | 午夜资源 | 欧美性一区二区三区 | 日韩免费高清视频 | 日韩精品电影一区亚洲 | 精品香蕉一区二区三区 | 精品综合久久 | 久久久久黄 | 精品国产一区二区国模嫣然 | 男女国产网站 | 凹凸日日摸日日碰夜夜 | 亚洲精品视频在线 | 成人av片在线观看 | 最新中文字幕在线 | 亚洲成人av | 国产免国产免费 | 欧美亚洲在线 | 国产精品久久久久久久久久免费 | 亚洲小说图片 | 国产精品高潮呻吟久久 | 欧美精品一区二区三区在线播放 | 欧美一级片在线播放 | 精品国产一区二区国模嫣然 | 国产成人精品a视频 | 国产亚洲二区 | 午夜电影一区二区 |

<rt id="guiae"></rt>

<strike id="guiae"><acronym id="guiae"></acronym></strike>

<li id="guiae"><input id="guiae"></input></li>

<rt id="guiae"><delect id="guiae"></delect></rt>

<rt id="guiae"></rt>

<li id="guiae"></li><li id="guiae"></li>

<abbr id="guiae"></abbr>

<li id="guiae"><source id="guiae"></source></li>