AI在操作系統里復制自己,這一天還是來了
這一天還是來了,AI在操作系統里啟動了一個自己的副本。
往小了說,不過是多模態大模型通過操縱鼠標鍵盤的API執行任務。
往大了說,也可以算是“AI復制自己”的雛形了。
(別被作者的藍天白云壁紙騙到了,這其實是MacOS)
從AI這一頓眼花繚亂的操作中可以看出,核心是多模態大模型,通過截圖判斷屏幕上正在發生什么,生成下一步操作的計劃,調用系統接口執行之后再次截圖。
要按網友建議加上語音識別功能,真就能模擬鋼鐵俠的賈維斯了。
AI能不能復制自己,是OpenAI內部始終關注的安全測試內容之一。但GPT-4出道至今,這項測試結果一直沒有公布。
如今,先不管模型本身有沒有這個能力,接入GPT4V的開源項目已經可以做到了。
AI與操作系統結合
這個開源項目叫做Open Interpreter,GitHub熱榜常客,半年時間已積攢3.7萬星。
從名字也可以看出,最早只是一個ChatGPT代碼解釋器的開源升級版。
與OpenAI官方版相比,沒有3小時50條對話的限制,以及可以連接網絡、可以自定義預安裝的Python包等等好處。
發布不久后初代作者Killian Lucas就想到,為什么一定要在虛擬沙箱環境執行代碼?直接讓AI接入真實系統有更大的可能性。
于是,第二個大版本就是操作系統級AI Agent了。
Open Interpreter最近更新了第三個大版本,其中接入的大模型改為多模態版本。
核心貢獻者Ty Fiero展示了AI自動發送郵件。
以及更復雜的AI操作專業編曲軟件作曲。
團隊在這個版本設計了全新的Computer API,并且與原本的Open Interpreter分離,可以獨立運作。
在新版本更新文檔中,可以看出團隊更大的野心:著手開發AI時代新的計算機架構,也就是語言模型計算機LMC(Language Model Computer)。
Kilian借助CES上199元的AI掌機Rabbit R1爆火的機會公開招募開發者加入,打算快速復刻一個開源版本,硬件成本不到50美元。
不到48小時,就有超過200位工程師和設計師愿意加入這個項目,評論區中還不斷有人繼續申請中。
不知道這個團隊回復大量應聘郵件和私信,用的是不是AI。
參考鏈接:
[1]https://twitter.com/fieroty/status/1746639975234560101。
[2]https://github.com/KillianLucas/open-interpreter。