編輯 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
AI手機還能怎么卷?
今天vivo在開發者大會上公布的答案,絕對能讓人眼前一亮!
通過融合用戶記憶、端側模型、和主動執行能力,vivo搞出了PhoneGPT,聲稱要做AI助理界的自動駕駛!
就是說PhoneGPT,不再滿足于簡單的任務執行,而是可以自己決策,進行任務的拆解,并通過屏幕識別等技術,最終做出動作、完成任務。
這么說可能還是有點抽象,還是來看vivo的藍心小V訂餐視頻更直觀!
在用戶給小V發出用餐需求之后,小V自動地調起相關APP,搜索到了餐廳的電話,還自己撥出電話和店員完成了預訂!整個執行過程,包括和真人的對話都非常絲滑。
除了手機智能,藍廠家的硬科技也絲毫不輸,自研的藍心大模型性能在線。在端側方面,提出“30億參數量級是端側黃金尺寸”的論斷,發布了新的藍心3B,在排行榜擊敗了Gemma-2和Phi-3-mini等小模型中的佼佼者。
讓人不得不感嘆一句,原來vivo還是模型界的隱藏大佬。
一個溫知識,vivo在國產手機銷量王座上已經穩坐三年之久,而使用vivo AI的用戶也在全球突破了5億。
圖片
想了解AI手機的未來,vivo和藍心智能的AI戰略,絕對值得一看。
一、PhoneGPT:AI不僅要“執行”更要“懂你”
vivo藍心智能的核心看點,就是他們把大模型與操作系統實現了深度融合。
vivo副總裁周圍說,這樣的實現效果,是大模型可以理解用戶個人的情景和偏好,進而讓系統主動提供個性化的服務。
圖片
具體來說,AI重構后的手機系統,帶來了三個體驗的革命,分別是交互體驗、服務體驗和鏈接體驗。
1.交互體驗
不少人抱怨過蘋果Siri的僵化和機械,在AI 2.0之前,我們的手機助手只能做一些簡單的執行工作。
而有了大模型,AI助手可以真正在文字、語音、圖像甚至行為層面,全方面多角度的做意圖理解,實現所謂的“執行且懂你”。
在交互體驗方面,周圍舉的例子就是語音交互!作為我們日常最多使用的、也是最直觀的交互形式,vivo能做出什么花樣呢?
圖片
小V的方言對話,讓用戶不再需要切換“川普”、“粵普”,而小V也會用方言來回答,AI和用戶的距離,這么一下就拉近了。
2.服務體驗
在服務的提升上,我覺得vivo真是做到了那句被說爛了的話,“所有的功能都值得用AI重做一遍”。
vivo針對電話、短信等基礎功能都做了翻新,例如,電話的內容可以轉文字也可以進行翻譯,筆記功能可以直接用AI潤色,拍照直接掃描識別等等。
小編覺得,這些設計好在并不是偽需求,而是實在的用AI幫用戶解決了一些問題。
圖片
既然是開發者大會,vivo大方宣布將開放平臺化能力,使得第三方應用也能接入這些AI黑科技。
圖片
3.鏈接體驗
周圍所說的鏈接體驗,主要講AI時代中,用戶與服務的關系變化。
AI確實給服務注入了活力,現在人和服務可以雙向奔赴了!在面向開發者的方面,vivo做了努力,讓APP提供的服務更好地做分發,找到需要Ta的用戶。
圖片
尤其是針對輕量化、原子化的服務,vivo構建了系統級的感知和意圖識別,實現系統主動分發服務。
圖片
在面向用戶的方面,vivo提出了一個有趣的概念是“人與設備的共同記憶”。
聽起來AI更像是一個一直陪伴我們的朋友了,隨著手機使用,AI會不斷擴展對我們的知識圖譜,相當于手機系統會“越用越好用”。
這個能實現啥具體功能呢?
圖片
用這個現場的例子,我們一下就悟了。
例如用戶喚起小V說,“幫我找找,去年和小貝在環球影城的照片,發給他并祝他生日快樂”。這個例子就很考驗AI,需要智能助手記住用戶的社會關系以及對方的樣子,還能在相冊找到符合人物、時間、地點條件的照片,并能跨應用找到備注為“小貝”的人發送信息,最后還可以再提供專屬服務如推薦生日餐廳。
圖片
不過這些東西都交給AI又覺得心里毛毛的,感覺就像有人把我的相冊都翻了一遍。
不過,vivo也很重視安全問題。甚至抗下了巨大的技術挑戰,不僅把通話總結、文檔概要、本地知識圖譜這種你不想被別人看到的隱私搬進了端側,還貼心地把審核功能也實現端側完成了。這下可以稍微舒一口氣,放心用AI了。
圖片
然后,既然有了多個智能體,最好就是讓他們配合起來,實現1+1大于2的效果。如果再配上意圖理解,讓這個負責調度的中心也由AI來完成部分工作,在懂人的基礎上,可以進行自主決策。
這一綜合,就實現了我們文章開頭,能提供智能駕駛體驗的phoneGPT!
視頻中的餐廳訂餐,就基于藍心大模型的多模態功能,在用戶意圖識能主動完成任務,通過屏幕識別,AI自己去操作控件,執行每步的操作。
圖片
根據周圍的透露,phoneGPT的每一步執行精確度達到了94%,每一步執行只需要極短的2s時間。為了安全,這個功能也會向端側發展,并且執行效果上還會再進化。
好家伙,AI真·私人助理的時代來了!
二、全新藍心大模型矩陣發布,藍心3B超Phi-3-mini
從GPT-4o發布以后,模型的多模態能力就成為了一個重點。
在新的模型矩陣中,藍心的語音、圖像和多模態大模型是第一次進行亮相的選手。
圖片
既然是手機廠商,端側模型肯定是開發的重中之重。
在此前開發的1B、7B 、13B端側模型的基礎上,vivo不斷地去做測試,在綜合考慮了模型效果、性能、內存、功耗后,試圖尋找最優方案,提出了30億參數量級是端側黃金尺寸的論斷。
圖片
在研究指導下,vivo的30億藍心端側大模型——藍心3B正式推出。相比于去年所推出的7B大模型,藍心3B做到了300%的性能提升,還降低了46%的功耗和63%的內存占用。藍心3B的性能強的可怕,做到了每秒80字的極致出詞速度,并且實現450mA的極致低能耗,且只占用1.4GB的內存。
圖片
周圍說,藍心3B突破了端側模型“能力強-消耗低-模型小”的不可能三角,并且在多份榜單上做到行業領先水平。
圖片
vivo追求做“最懂中國人的大模型”,具體到多模態大模型方面,他們做了生圖功能的水墨風格以及漢字相關創作的性能提升。
圖片
看這張榜單,能看出vivo在模型能力上是有過硬積累的。就語音那張榜單來看,語音一直是豆包過硬的核心技術,能在語音交互上超過豆包,說明日常的對話任務基本不在話下了。
圖片
三、寫在最后:最好的AI技術,要在應用里跑起來
vivo秀完AI硬實力的“肌肉”后,開始了對自研系統OriginOS 5 的介紹。
就像他們自己所說的那樣:不止要有好的技術,還要能落地到產品的層面上。
于是,我們就看到了vivo在對界面和用戶操作深度思考之上的作品——原子島。
在意圖識別的基礎上,用戶只需要將文本等內容復制或拖動到原子島上,就會自動推薦你想要打開的APP,真正做到解放雙手,讓科技快人一步。
在最初看到原子島三個字的時候,可能很容易認為這是對蘋果靈動島的模仿之作。但是坦白的說,前者帶給我的意料之外的驚喜,能看到vivo對AI如何改變交互形態的思考之深。
vivo的開發者大會,讓人重新認識了這位國產手機的銷量王者,對于AI的戰略構想,我們不只有術,還有道。