LLM將成歷史?開源bGPT或顛覆深度學習范式:直接模擬二進制,開啟模擬數字世界新紀元!
微軟亞洲研究院推出的最新成果bGPT,這種基于字節的Transformer模型,為我們探索數字世界開辟了新的大門。
與傳統的基于詞表的語言模型不同,bGPT的獨特之處在于其對原始二進制數據的直接處理能力,不受特定格式或任務的限制,其目標是全面模擬數字世界。
論文:https://arxiv.org/abs/2402.19155
代碼:https://github.com/sanderwood/bgpt
模型:https://huggingface.co/sander-wood/bgpt
項目主頁:https://byte-gpt.github.io
研究團隊在其論文中展示了bGPT在建模上的巨大潛力,通過字節級處理,bGPT不僅能生成文本、圖像和音頻,還能模擬計算機行為——從格式轉換算法到CPU狀態的建模。將所有數據視為字節序列的做法,使bGPT能夠將不同類型的數據納入同一框架之下。
bGPT的論文一經發布,便在X(Twitter)上引發了廣泛的關注和討論,標志著深度學習范式轉變的可能性,使得模型能夠真正理解并模擬數字世界中的各種活動。
二進制數據:構成數字世界的基礎DNA
二進制數據是數字世界的基礎,從計算機處理器到我們日常使用的電子產品的操作系統,構成了所有數據、設備和軟件的核心。bGPT正是從這一點出發,旨在通過學習二進制數據序列來掌握數字系統的內部邏輯,以此來重建和模擬復雜的數字現象。
bGPT通過字節級的處理,不僅能應用于常規的AI生成和理解任務,還能處理更多的非傳統應用。例如,它能直接模擬MIDI——一種音樂傳輸和存儲的標準格式,這在之前的研究中由于MIDI的二進制本質而避免了直接建模。
但bGPT天生適合此類任務,能夠精確模擬音樂數據的轉換算法,將ABC記譜法轉換為MIDI格式時,達到極低的錯誤率(0.0011 BPB)。
在實際應用中,bGPT通常能夠準確地完成ABC符號與MIDI文件之間的轉換,有時甚至能糾正原始文件中的錯誤,使音樂轉換更加準確。
bGPT自動將ABC記譜法轉換成MIDI格式(上圖)與原MIDI數據(下圖)的對比,凸顯了關鍵的差異:雖然原MIDI數據中漏掉了一拍(見下圖),導致和弦伴奏斷開,但由bGPT轉換的結果(見上圖)正確填補了這一缺失,確保了和弦伴奏的流暢性。
研究團隊還將CPU建模作為硬件行為模擬的代表性任務:該任務要求模型接收低級機器指令序列作為輸入,其目標是準確預測每個指令執行后CPU狀態如何更新,直至程序停止。
在這個任務中,bGPT展現出超過99.99%的準確率,顯示了字節模型在處理原生二進制數據方面的強大能力和可擴展性。
在提供了程序和初始CPU狀態的情況下,bGPT能夠準確地預測CPU執行的完整過程,直到程序終止。在這個示例中,bGPT精確地處理了所有CPU指令。為了便于理解,這里將實際的字節序列轉換成了更易讀的格式。
從字節到萬物:突破邊界,向著統一的數據建模進發
bGPT不僅能處理原生二進制數據,還能將多種數據類型融合進一個統一的模型架構中,視一切數據為字節序列。
這種方法不但簡化了數據建模流程,還使得從任何數據源的整合變得輕而易舉,且無需為特定數據類型定制模型。
研究團隊在論文中舉例了傳統文本、圖像及音頻文件,展現了bGPT在統一數據建模方面的能力。他們訓練的bGPT模型擁有約1億參數。
實驗結果表明,在與GPT-2(文本模型)、ViT(視覺模型)和AST(音頻模型)等同規模模型的比較中,bGPT在不同數據類型上均展現出了可媲美的性能。
bGPT在文本生成方面的表現非常出色。得益于其字節級的文本編碼,該模型無需依賴詞匯表,從而能支持所有語言。
它的分層Transformer架構,盡管計算開銷與GPT-2相近,卻能生成長達8KB的文本,大大超出了GPT-2的長度限制。在經過Wikipedia數據進行預訓練后,bGPT生成的文本在風格和主題上都與GPT-2不相上下,證明了其在文本生成方面的強大能力。
bGPT在Wikipedia數據集上進行預訓練,生成的文本樣例質量和主題一致性與GPT-2相當。
bGPT可以通過預測圖像字節序列中的下一個字節來生成圖像。該模型在ImageNet數據集上進行了預訓練,生成的圖像分辨率為32x32像素。
雖然在當前規模下,通過字節序列準確捕捉圖像的二維空間關系有所困難,導致生成的圖像存在偽影和噪點,但紋理和光影效果通常還是比較準確的。
此外,這些生成的圖像均能被正常解碼為BMP文件。研究團隊指出,通過擴大bGPT的規模,類似于OpenAI開發的iGPT在像素序列建模方面的方法,或許可以實現更高質量、更逼真的圖像生成。
這些是由在ImageNet數據集上進行預訓練的bGPT生成的一組圖像。雖然圖像的紋理和光影效果通常比較準確,但在這些生成的圖像中識別主要物體卻有一定難度。
bGPT將音頻數據視為字節序列,能生成1秒長、采樣率為8000 Hz的音頻樣本。
該模型在LibriSpeech數據集上完成了預訓練,并進一步在Speech Commands v2數據集上進行微調和演示。bGPT生成的音頻樣本保持了較高的準確度,其中一些樣本幾乎與真實音頻無法區分。以下是展示bGPT在音頻生成領域能力的示例集。
通過bGPT探索字節構成的數字世界
傳統語言模型,不管它們有多強大,主要專注于處理自然語言文本。bGPT模型通過基于字節的處理機制,打破了這種僅限于文本處理的局限性,開辟了一個全新的數據處理范疇。
這一進步讓bGPT有能力無縫地處理包括文本、圖像、音頻在內的各種數據類型,甚至能處理來自算法和硬件的原生二進制數據,為全面模擬和理解數字世界鋪平了道路。
雖然bGPT展現出了引人注目的能力,但其在計算開銷方面的局限性,如當前在常規顯卡上僅能處理最大8KB的字節序列,對于那些需要生成或處理大量數據的應用來說,構成了明顯的限制。未來的工作計劃將集中在開發更高效的算法和利用硬件的進步上,旨在提高處理更大規模數據序列的能力。
全球的技術愛好者們已經開始展望bGPT未來的潛力,從網絡修剪和自我學習的優化到超大規模網絡的自我重構能力,這些討論指向了一個共同的愿景:bGPT最終可能實現一個統一的模型,能夠處理和輸出所有類型的字節數據,真正成為數字世界的全面模擬器。
研究團隊已將bGPT的代碼和模型開源。這意味著你可以在自己的數據集上直接訓練bGPT,無需做出任何模型架構上的調整,便可探索字節模型在數字領域的廣闊前景。