卡帕西預言成真！華人團隊開源全AI操作系統：神經網絡模擬Windows，預測下一幀屏幕圖像

2025-07-15 16:26:16

人工智能新聞

隨著AI能力逐漸擴展，GUI將是為每個用戶量身打造的流動（fluid）、魔幻（magical）、可交互（ephemeral）的2D畫布，就像你專屬的操作系統，實時重繪、實時響應。

瘋狂，太瘋狂了~

大神卡帕西預測的「下一代GUI系統」這就水靈靈地實現了？！

玩法相當easy，當你移動鼠標、點擊圖標或敲鍵盤時，這個完全由神經網絡驅動的操作系統就和咱們平時的電腦一樣，能在屏幕上實時顯示對應的圖形界面。

就是說，AI現在能完全模擬Windows，直接預測下一幀屏幕圖像。

事實上，卡帕西在今年5月就預言了一波“AI時代的圖形用戶界面長啥樣”。

在他看來，如今和大語言模型（LLM）聊天就像在使用80年代的電腦終端，還沒有用上圖形用戶界面（GUI）。

而在未來，隨著AI能力逐漸擴展，GUI將是為每個用戶量身打造的流動（fluid）、魔幻（magical）、可交互（ephemeral）的2D畫布，就像你專屬的操作系統，實時重繪、實時響應。

受此啟發，5位來自滑鐵盧大學和加拿大國家研究委員會的研究人員提出NeuralOS，并打造出了一個可試玩的初版演示demo。

這一最新成果為構建完全自適應的生成式神經接口邁出了重要一步，有望應用于下一代人機交互系統。

那么問題來了——

NeuralOS是靠什么模擬Windows的呢？

關鍵法寶：RNN+渲染器

據論文介紹，NeuralOS能模擬操作系統界面，靠的是兩個核心“技能模塊”：

循環神經網絡（RNN）：用于跟蹤計算機的狀態變化
基于擴散的神經渲染器（Renderer）：負責生成屏幕圖像

具體而言，不管用戶操作多復雜（如現在打開了哪些軟件、鼠標停在哪個位置、光標是箭頭還是輸入狀態等），RNN模塊都能跟著“記”下來，保證后續反應不脫節。

然后Renderer渲染器根據前面記下的狀態和用戶操作（如點擊了“瀏覽器”圖標），直接生成對應的屏幕畫面（包括窗口彈出、圖標變色、菜單展開這些視覺變化）。

原理聽起來是不是很簡單？但為了訓練NeuralOS，團隊可是下了一番功夫。

為了讓它學會模擬操作系統，他們給它準備了一大份“學習材料”——全是Ubuntu XFCE系統（Linux輕量級桌面系統）的操作錄像。

內容主要分為兩類：

一類是隨機生成的用戶交互。比如亂點鼠標、隨便拖動窗口、無規律敲擊鍵盤，相當于讓AI見識“各種可能性”，避免只認固定操作。

另一類是由AI Agent生成的真實交互。這里讓AI Agent來模擬人類的正常行為，比如打開瀏覽器、輸入文字、關閉窗口等，讓AI學習“符合常理的操作邏輯”。

然后經過RNN預訓練——RNN+Renderer聯合訓練——計劃采樣——將RNN輸入的上下文序列加長這一訓練流程后，NeuralOS終于學會了根據之前的幀和用戶輸入（鼠標、鍵盤）來預測下一幀屏幕圖像。

最后，為了檢驗NeuralOS真實效果如何，團隊選擇通過模擬用戶操作來測試模型。

得出的結論如下：

畫面逼真：連續操作時，它生成的界面變化（如從桌面到打開文件夾，再到關閉窗口）看起來和真系統幾乎一樣。
鼠標響應準：不管是移動鼠標讓光標跟著動，還是點擊圖標觸發反應（如點“關機”按鈕出現確認窗口），它都能準確對應。
狀態轉換穩：像啟動應用、切換窗口這類“系統狀態變化”，它也能可靠模擬（如點“計算器” 圖標，就會出現計算器窗口，不會亂出別的東西）。

但它目前對鍵盤的精細操作處理不好，尤其是快速打字時，它可能跟不上每個按鍵的實時顯示，或者出現字母順序錯亂的情況。

下圖展示了模型預測狀態與真實狀態之間的對應關系，主對角線區域有明顯高亮，說明模型大多數預測是準確的；但也存在一定比例的偏移預測，說明個別狀態存在混淆。

背后團隊

NeuralOS論文作者一共5人，其中4位均為華人面孔。

Luke Rivard，目前正在滑鐵盧大學計算機科學系讀研，研究方向為自然語言處理（NLP）。

這次研究是跟著他導師Yuntian Deng一起合作的。

Sun Sun，目前是加拿大國家研究委員會研究員，同時也是滑鐵盧大學兼職教授。

其研究方向為優化、機器學習以及深度學習應用。

Hongyu Guo，本科畢業于上海交大，目前是加拿大國家研究委員會數字技術研究中心的高級研究員。

他曾在渥太華大學獲得CS博士學位，目前任該校電氣工程與計算機科學學院兼職教授。

其論文多發表于ICML、ICLR、AAAI、IJCAI、ACL、EMNLP、IEEE等頂會期刊，谷歌學術論文總引用量達5000+。

陳文虎（Wenhu Chen），目前是滑鐵盧大學計算機科學助理教授。

其研究方向為推理、信息檢索、基準與評估等，2022年獲得了加拿大的CIFAR AI主席獎，該獎主要由加拿大政府授予在AI領域表現突出的世界頂尖人才。

從2021年起，他還兼職Google Deepmind的研究科學家。

Yuntian Deng，目前是滑鐵盧大學助理教授，也是英偉達客座教授。

曾獲得哈佛大學博士學位，研究興趣為自然語言處理和機器學習。

自NeuralOS論文發表后，他們還提供了一個在線體驗版本，不過每個用戶的操作演示（session）運行時，后臺要專門分配一塊H100顯卡才能跑起來。

從使用指南來看，具體操作手法如下：

將鼠標移入藍色框內，以與NeuralOS進行交互；
點擊（左鍵或右鍵），可執行點擊操作；
使用鍵盤輸入，可在模擬環境中打字；
調整采樣步數，以平衡畫面質量與生成速度；
切換“Use RNN”開關，在RNN模式與擴散模式之間切換；
切換“Auto Input”開關，啟用自動幀生成功能，即當你將鼠標移入畫布并保持靜止2秒后自動開始，每0.5秒生成一幀。

連作者本人都表示，本來以為只是一個小demo，但沒想到來了太多用戶，以至于系統運行緩慢。

不過隨著代碼開源，一切都還有進一步優化的空間。

雖然現在看起來很粗糙，但它展示了一個新可能——未來的“操作系統”不一定是死板的按鈕，而是可以被AI動態“生成”的。

在線體驗：https://neural-os.com/

論文：https://arxiv.org/abs/2507.08800

責任編輯：張燕妮來源：量子位

AI 模型操作系統

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

卡帕西預言成真！華人團隊開源全AI操作系統：神經網絡模擬Windows，預測下一幀屏幕圖像

關鍵法寶：RNN+渲染器

背后團隊