很瘋狂!彭博社消息,根據知情人士透露,蘋果公司計劃使用更先進的人工智能對其Siri虛擬助手進行全面改革!
Siri將不再局限于目前單一任務的執行,而是可以允許用戶通過聲音交互控制每個應用程序的單個功能。
看來,在隱私方面一向保守的蘋果,在數據安全與AI至上的天平中徘徊了許久,終于找到了平衡中的解決之道——新系統將首次允許Siri接管應用程序內的所有功能。
這一革命性的變化需要使用LLM來重新設計Siri的基礎——這是生成性AI背后的核心技術,他們表示,這將是蘋果在AI領域新推力的亮點之一。
未來,Siri不再只能幫用戶定個鬧鐘。而是可以做一系列連貫的任務。例如,要求Siri總結一個錄制的會議,然后將其作為文本發送給同事。或者iPhone理論上可以被要求裁剪圖片,然后將其通過電子郵件發送給朋友。或者打開某個外賣APP幫用戶下單特定的食物作為午餐……
有網友興奮地表示,如果蘋果能做到的話,我覺得AGI就要來了——能在成千上萬的應用中執行日常的任務,怎么不算通用智能呢?
圖片
1.全球開發者大會公布“進化版”Siri
Siri新系統將允許虛擬助手以更高的精確度控制和導航iPhone或iPad。
新的功能將讓iPhone成為AiPhone:使用AI分析人們在設備上的操作,并自動啟用Siri控制的功能。最初將限于蘋果自己的應用程序,公司計劃支持數百種不同的命令。
這包括能夠打開單個文檔、將筆記移動到另一個文件夾、發送或刪除電子郵件、在Apple News中打開特定的出版物、通過電子郵件發送網頁鏈接,甚至要求設備對文章進行摘要。
目前,Siri還主要限于播放音樂播放列表、查找信息或控制智能家居設備等更廣泛的命令。該公司還向開發者提供所謂的應用程序意圖,允許他們為Siri創建訪問單個功能的途徑。2018年,蘋果還推出了Siri快捷方式,允許用戶手動為應用程序功能創建命令。
Siri的升級是公司更大AI戰略的一部分,該戰略將在6月10日的全球開發者大會上公布。蘋果正在準備包括語音備忘錄轉錄和摘要、網站和通知的快速概述、自動消息回復、高級照片編輯和AI生成的表情符號在內的多項功能,彭博社報道。
2.AI和安全,蘋果都想要
重視數據安全使得蘋果的AI之路一度非常保守。
在為Siri計劃升級時,它們準備了一個系統,以使用AI自動確定一個功能應該在設備上處理還是通過云處理。
總的邏輯上,蘋果選擇將更基本的AI任務將在設備本身上處理,而更高級的功能將通過云計算來處理。
該公司還一直在與OpenAI達成協議,將這家初創公司的聊天機器人和其他技術整合到iOS操作系統中,并且它仍在與谷歌的母公司Alphabet Inc.談判,計劃將來使用其Gemini軟件。蘋果軟件主管克雷格·費德里吉告訴他的團隊盡可能為今年的操作系統更新開發新的AI功能。
不過,這還是引發了一些對隱私問題的關注。雖然設備上的任務不會共享個人信息,但基于云的方法將需要將一些用戶數據轉移到遠程服務器。該信息將由高端蘋果Mac芯片中的所謂Secure Enclave保護,這些芯片為數據中心提供動力。
此外,蘋果將嘗試通過創建一個“智能報告”來進一步向客戶保證他們的數據是私密的,該報告解釋了信息是如何被保護的。iPhone制造商也不會建立客戶檔案——它批評谷歌和Meta Platforms Inc.這樣做。
3.蘋果的臥薪嘗膽
蘋果從未停止過在AI領域的探索,或許我們可以從已有的成果中,勾勒出未來Siri的草圖。
- MM1
https://machinelearning.apple.com/research/mm1-methods-analysis-insights
MM1是一個多模態模型家族,參數高達30B,包括密集模型和專家混合(MoE)變體。
- MGIE
https://github.com/apple/ml-mgie
研究如何通過多模態大語言模型(MLLMs)促進編輯指令,并提出了 MLLM 引導的圖像編輯(MGIE)。
- LLM in a Flash
https://arxiv.org/pdf/2312.11514
研究在內存受限的設備上高效運行超出可用DRAM容量的大型語言模型(LLMs)的問題。
- Ferret
https://github.com/apple/ml-ferret
理解圖像中任何形狀或粒度的空間指代,并能準確地將開放詞匯描述落地。
Ferret模型的引入可能會使得手機中的虛擬助手在視覺理解和交互方面有顯著的性能提升。
- Realm
https://arxiv.org/pdf/2403.20329
解決如何利用大型語言模型(LLMs)有效地解析各種類型的引用,尤其是非對話實體。
如果一個用戶在使用一個應用程序時與智能助手交談,他們可能會提到屏幕上顯示的某個按鈕或選項,即使這個按鈕并沒有在對話中直接被提及。在這種情況下,智能助手需要能夠理解用戶所指的"按鈕"是指他們屏幕上的特定非對話實體,并據此提供適當的響應或操作。
- FerretUI
https://arxiv.org/pdf/2404.05719
Ferret-UI模型的引入可能會使手機中的虛擬助手在理解用戶界面、執行指令、處理復雜任務方面與用戶進行更加有效的交互。
- OpenELM
https://machinelearning.apple.com/research/openelm…
通過公開模型的完整框架,包括訓練和評估代碼、日志、檢查點和預訓練配置,可以確保虛擬助手背后的算法更加透明,有助于研究人員和開發者理解和復現結果。
隨著Siri的升級,蘋果希望重振一個落后于競爭對手服務的開創性產品。該公司于2011年首次推出Siri,為其在基于語音的接口和AI方面提供了領先優勢。但蘋果很快將這一領先優勢輸給了亞馬遜公司的Alexa和谷歌助手。然后在兩年前生成性AI聊天機器人出現時,它又措手不及。如今,蘋果計劃通過引入更先進的人工智能技術,徹底改革Siri,使其能夠控制應用的各個功能,借此將其虛擬助手推向新的高度。
參考鏈接:
1.https://www.bloomberg.com/news/articles/2024-05-30/apple-ios-18-siri-ai-update-will-let-users-control-features-in-apps-with-voice?srnd=technology-ai
2.https://x.com/maxxrubin_/status/1797417653122027725?s=46&t=KxYfPIc0aizUawD67ZIUfw