蘋果Siri將迎來AI時代最強“大修”!虛擬助手將幫助用戶操控每個APP,網(wǎng)友:我愿稱之為AGI 原創(chuàng)
很瘋狂!彭博社消息,根據(jù)知情人士透露,蘋果公司計劃使用更先進的人工智能對其Siri虛擬助手進行全面改革!
Siri將不再局限于目前單一任務(wù)的執(zhí)行,而是可以允許用戶通過聲音交互控制每個應(yīng)用程序的單個功能。
看來,在隱私方面一向保守的蘋果,在數(shù)據(jù)安全與AI至上的天平中徘徊了許久,終于找到了平衡中的解決之道——新系統(tǒng)將首次允許Siri接管應(yīng)用程序內(nèi)的所有功能。
這一革命性的變化需要使用LLM來重新設(shè)計Siri的基礎(chǔ)——這是生成性AI背后的核心技術(shù),他們表示,這將是蘋果在AI領(lǐng)域新推力的亮點之一。
未來,Siri不再只能幫用戶定個鬧鐘。而是可以做一系列連貫的任務(wù)。例如,要求Siri總結(jié)一個錄制的會議,然后將其作為文本發(fā)送給同事。或者iPhone理論上可以被要求裁剪圖片,然后將其通過電子郵件發(fā)送給朋友。或者打開某個外賣APP幫用戶下單特定的食物作為午餐……
有網(wǎng)友興奮地表示,如果蘋果能做到的話,我覺得AGI就要來了——能在成千上萬的應(yīng)用中執(zhí)行日常的任務(wù),怎么不算通用智能呢?
圖片
1.全球開發(fā)者大會公布“進化版”Siri
Siri新系統(tǒng)將允許虛擬助手以更高的精確度控制和導(dǎo)航iPhone或iPad。
新的功能將讓iPhone成為AiPhone:使用AI分析人們在設(shè)備上的操作,并自動啟用Siri控制的功能。最初將限于蘋果自己的應(yīng)用程序,公司計劃支持數(shù)百種不同的命令。
這包括能夠打開單個文檔、將筆記移動到另一個文件夾、發(fā)送或刪除電子郵件、在Apple News中打開特定的出版物、通過電子郵件發(fā)送網(wǎng)頁鏈接,甚至要求設(shè)備對文章進行摘要。
目前,Siri還主要限于播放音樂播放列表、查找信息或控制智能家居設(shè)備等更廣泛的命令。該公司還向開發(fā)者提供所謂的應(yīng)用程序意圖,允許他們?yōu)镾iri創(chuàng)建訪問單個功能的途徑。2018年,蘋果還推出了Siri快捷方式,允許用戶手動為應(yīng)用程序功能創(chuàng)建命令。
Siri的升級是公司更大AI戰(zhàn)略的一部分,該戰(zhàn)略將在6月10日的全球開發(fā)者大會上公布。蘋果正在準(zhǔn)備包括語音備忘錄轉(zhuǎn)錄和摘要、網(wǎng)站和通知的快速概述、自動消息回復(fù)、高級照片編輯和AI生成的表情符號在內(nèi)的多項功能,彭博社報道。
2.AI和安全,蘋果都想要
重視數(shù)據(jù)安全使得蘋果的AI之路一度非常保守。
在為Siri計劃升級時,它們準(zhǔn)備了一個系統(tǒng),以使用AI自動確定一個功能應(yīng)該在設(shè)備上處理還是通過云處理。
總的邏輯上,蘋果選擇將更基本的AI任務(wù)將在設(shè)備本身上處理,而更高級的功能將通過云計算來處理。
該公司還一直在與OpenAI達成協(xié)議,將這家初創(chuàng)公司的聊天機器人和其他技術(shù)整合到iOS操作系統(tǒng)中,并且它仍在與谷歌的母公司Alphabet Inc.談判,計劃將來使用其Gemini軟件。蘋果軟件主管克雷格·費德里吉告訴他的團隊盡可能為今年的操作系統(tǒng)更新開發(fā)新的AI功能。
不過,這還是引發(fā)了一些對隱私問題的關(guān)注。雖然設(shè)備上的任務(wù)不會共享個人信息,但基于云的方法將需要將一些用戶數(shù)據(jù)轉(zhuǎn)移到遠程服務(wù)器。該信息將由高端蘋果Mac芯片中的所謂Secure Enclave保護,這些芯片為數(shù)據(jù)中心提供動力。
此外,蘋果將嘗試通過創(chuàng)建一個“智能報告”來進一步向客戶保證他們的數(shù)據(jù)是私密的,該報告解釋了信息是如何被保護的。iPhone制造商也不會建立客戶檔案——它批評谷歌和Meta Platforms Inc.這樣做。
3.蘋果的臥薪嘗膽
蘋果從未停止過在AI領(lǐng)域的探索,或許我們可以從已有的成果中,勾勒出未來Siri的草圖。
- MM1
??https://machinelearning.apple.com/research/mm1-methods-analysis-insights??
MM1是一個多模態(tài)模型家族,參數(shù)高達30B,包括密集模型和專家混合(MoE)變體。
- MGIE
??https://github.com/apple/ml-mgie??
研究如何通過多模態(tài)大語言模型(MLLMs)促進編輯指令,并提出了 MLLM 引導(dǎo)的圖像編輯(MGIE)。
- LLM in a Flash
??https://arxiv.org/pdf/2312.11514??
研究在內(nèi)存受限的設(shè)備上高效運行超出可用DRAM容量的大型語言模型(LLMs)的問題。
- Ferret
??https://github.com/apple/ml-ferret??
理解圖像中任何形狀或粒度的空間指代,并能準(zhǔn)確地將開放詞匯描述落地。
Ferret模型的引入可能會使得手機中的虛擬助手在視覺理解和交互方面有顯著的性能提升。
- Realm
??https://arxiv.org/pdf/2403.20329??
解決如何利用大型語言模型(LLMs)有效地解析各種類型的引用,尤其是非對話實體。
如果一個用戶在使用一個應(yīng)用程序時與智能助手交談,他們可能會提到屏幕上顯示的某個按鈕或選項,即使這個按鈕并沒有在對話中直接被提及。在這種情況下,智能助手需要能夠理解用戶所指的"按鈕"是指他們屏幕上的特定非對話實體,并據(jù)此提供適當(dāng)?shù)捻憫?yīng)或操作。
- FerretUI
??https://arxiv.org/pdf/2404.05719??
Ferret-UI模型的引入可能會使手機中的虛擬助手在理解用戶界面、執(zhí)行指令、處理復(fù)雜任務(wù)方面與用戶進行更加有效的交互。
- OpenELM
??https://machinelearning.apple.com/research/openelm…??
通過公開模型的完整框架,包括訓(xùn)練和評估代碼、日志、檢查點和預(yù)訓(xùn)練配置,可以確保虛擬助手背后的算法更加透明,有助于研究人員和開發(fā)者理解和復(fù)現(xiàn)結(jié)果。
隨著Siri的升級,蘋果希望重振一個落后于競爭對手服務(wù)的開創(chuàng)性產(chǎn)品。該公司于2011年首次推出Siri,為其在基于語音的接口和AI方面提供了領(lǐng)先優(yōu)勢。但蘋果很快將這一領(lǐng)先優(yōu)勢輸給了亞馬遜公司的Alexa和谷歌助手。然后在兩年前生成性AI聊天機器人出現(xiàn)時,它又措手不及。如今,蘋果計劃通過引入更先進的人工智能技術(shù),徹底改革Siri,使其能夠控制應(yīng)用的各個功能,借此將其虛擬助手推向新的高度。
參考鏈接:
1.https://www.bloomberg.com/news/articles/2024-05-30/apple-ios-18-siri-ai-update-will-let-users-control-features-in-apps-with-voice?srnd=technology-ai
2.??https://x.com/maxxrubin_/status/1797417653122027725?s=46&t=KxYfPIc0aizUawD67ZIUfw??
本文轉(zhuǎn)載自??51CTO技術(shù)棧??
