李彥宏的野心:百度不造“超級應用” !百度亮出4款產品新形態:多智能體“秒噠”、多模態iRAG、AI眼鏡 原創
編輯 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
進入下半年,國內大模型廠商們都在忙什么?
11月12日上午9點35分,百度世界大會如約而至。李彥宏身著白襯衫,信步走入在上海世博中心的主會場,用一個小時的時間為人們展示了大模型進入2024年之后,百度最新取得的一些產品技術進展。
李彥宏全程一個小時的演講,回顧了過去24個月全球生成式人工智能變革帶來了的大爆發,激動地喊出了放眼業內似乎還不太敢喊出的一句slogon:“AI應用時代真的來了!”,并同時發布了兩個重磅新品:文心iRAG和秒噠。
這里劃重點,這兩款技術產品,一款是多模態領域的檢索增強,另一款則是多智能體的產品開發應用,這代表了百度作為國內大模型領旗者,押寶應用的兩大方向,值得各位一探。
圖片
1.李彥宏的第一個押寶:過去24個月,大模型最大的變化
大模型時代已經前行了24個月,模型層面發生了哪些變化?百度創始人李彥宏給出了自己的答案:基本消除了幻覺。
而在消除幻覺方面,檢索增強作為一種 技術手段成為了行業共識。“但是,在多模態方面,檢索增強還做得不夠?!?/p>
李彥宏現場給出了一個“文生天壇圖像”的開源模型的錯誤例子,真實的天壇是三層的,而開源模型則會煞有其事地生成四層,令人難辨真假。
圖片
基于此,百度死磕多模態方面的幻覺問題,李彥宏自豪的發布了今天第一個“炸彈”:檢索增強的文生圖技術iRAG。
大致的原理也不難理解:就是其將百度搜索的億級圖片資源跟強大的基礎模型能力相結合,可以生成各種超真實的圖片,“整體效果遠遠超過文生圖原生系統,去掉了機器味”。
百度首席技術官王海峰在接下來的演講中更具體一步的揭示了iRAG背后的黑科技:百度多模態可控生圖大模型。該模型通過多模態注意力機制、圖文交錯編碼等技術結合擴散模型,提升了整體注意力計算的高精確性,讓檢索增強的文生圖過程可以自動分析、理解、規劃和泛化。
圖片
李彥宏表示,iRAG技術極大地提高了A生成圖片的可用性,具備無幻覺、超真實、無成本、立等可取等商業價值。
2.第二個押寶:一個只靠想法就能賺錢的應用:秒噠以及背后的技術實現
無需代碼就能開發應用,已經不再是什么新鮮的大模型話題。但真正做出來的App沒有,即便強如OpenAI,也在去年嘗試了GPTs之后,讓只需對話就能生成AI應用的熱度歸于沉寂。
不過,這次百度做到了。早在上個月,李彥宏就曾在內部的季度戰略復盤會議上表示:智能體雖然還是不是行業共識,但它是百度未來的一個賭注。
李彥宏將現在的智能體做一個分類,總共分為了四種:公司類、角色類、工具類、行業類。不同類型的智能體方面,百度近年來都已經跟業內的生態伙伴進行了深入的合作,李彥宏甚至給出了比亞迪、百勝餐飲、小朋友自己創作悟空動畫片等真實有趣的例子。
圖片
重頭戲來了,李彥宏會上甩出了另一款大模型“炸彈”應用——無代碼工具“秒噠”!
秒噠具備無代碼編程、多智能體協作和多工具調用三大特性,李彥宏對其寄予了厚望,稱之為“迄今為止人類歷史上最復雜的多智能體協作工具”。作為一個不需要寫代碼就能夠實現任意想法的工具,秒噠讓每個人都具備程序員的能力,會說話就能做出應用。
圖片
李彥宏還在會場展示了一個五個智能體協作開發的案例,1號智能體小組長負責策劃召喚2號智能體策劃和3號智能體被稱為小編,4號智能體是程序員,5號是質檢員等等。
圖片
圖片
前不久OpenAI說未來極有可能會出現一個人的公司,而李彥宏發布的這款“多噠”似乎也印證了未來的公司可能真的不用再費勁心力去招聘諸如產品經理、開發等人員,一個想法可能就足以讓你搞定一款應用。
李彥宏總結說,“只要有想法,你就可以心想事成,我們將迎來一個前所未有的只靠想法就能賺錢的時代。
李彥宏將做智能體類比為PC時代做網站、或是移動時代做自媒體賬號,“不同之處是智能體更像人、更智能,更像你的銷售、客服和助理。智能體可能會變成AI原生時代,內容信息和服務的新載體。
話說回來,小編想到了一個問題:這款應用似乎跟去年AutoGPT的場景很像,究竟高端在哪里?
接下來王海峰的演講解開了這個困惑:現在多智能體的技術語境已然發生了變化。去年的多智能體還處于“快思考”的大模型語境,而不同的是,今年下半年,百度也有了自己的“慢思考”模型。
“人類思考有兩個系統,系統1反應快,但容易出錯,系統2雖慢,但理性精確。”王海峰會場上發布了百度的思考模型背后的實現技術,讓模型像人一樣進行任務拆解和自主規劃的能力,學會運用工具及決策。
具體而言,要訓練一個思考模型,需要這幾樣關鍵的東西:訓練所需的思考過程數據,提示自動構建、自動探索思考和行動路徑。王海峰介紹了現在思考模型的最大難題還是數據的不足,百度采用了合成過程數據的方式。
通過用戶模擬器生成指令、工具模擬器模擬功能、領域知識構建推理,創建了思考模型數據合成的閉環,再結合強化學習等手段從而實現思考過程的有監督精調。
圖片
遺憾的是,秒噠現在還是一個期貨,預計明年上半年發布。
3.一個小驚喜網盤與文心的碰撞:自由畫布
不過,現貨也是有的,李彥宏在工具類智能體介紹時,展示了百度全新的應用智能體,即百度文庫和百度網盤聯合開發的“自由畫布”,讓用戶可以在一塊類似“畫布”的界面上自由拖拽文檔、音視頻等富媒體素材,迅速生成多模態內容。自由畫布是一個由文心多模態大模型加持的萬能白板,可以幫助用戶完成從找資料,到編輯、生成和分享的全部任務。
圖片
圖片
李彥宏表示,“這不是期貨,而是立即可用的現貨,是真正服務于創造的新質生產力!
4.百度的野心
進入全新的AI革命浪潮,一直致力于科技驅動的“AI先生”李彥宏對于重塑百度有了新的思考和野心。李彥宏曾經做國一個估計,要一年內把大模型API的調用量提升10倍?,F在看,僅僅半年,百度的季度就超過了預期!
圖片
僅過去半年,百度文心大模型的日均調用量已經超過15億,相較一年前首次披露的5000萬次,增長約30倍。李彥宏表示“增速超出預期”,說明AI是真需求。他感慨,這條陡峭的增長曲線,代表著過去兩年中國大模型應用的爆發。
圖片
毫無疑問,百度在國內擁有絕對的先發優勢,但在打造超級應用上,向來沒有特別激進,對于Kimi、豆包在C端的高歌猛進,李彥宏此前表示不會跟進。
此次百度世界大會2024,作為技術人出身的李彥宏,再次闡明了這一觀點,并表達了對未來智能應用爆發的無限期待?!鞍俣人龅?,不是打造一個‘超級應用’,而是要打造數百萬個‘超級有用’!”
圖片
奧運冠軍也來了,巴黎奧運會上百度黑科技的力量也可圈可點
李彥宏在現場發布了基于百度文心大模型的100大產業應用,涵蓋了制造、能源、交通、政務、金融、汽車、教育、互聯網等眾多行業。李彥宏表示,“發布這100大產業應用,其實也代表我們的認知和態度。
這個世界不應該被軟件吞噬,而是,用AI應用來創造世界!讓我們一起見證:Application creating the world!
弦外之音,百度給自己在大模型時代的定位非常篤定:要成為這個時代的基礎設施,而非超級用戶收割機。
圖片
5.One More Thing:百度首款AI眼鏡預發布
這場發布會,除了李彥宏的演講,小編還期待此前透露出來的百度AI眼鏡。近兩年這款AI創造的新物種非常熱,不妨來看看百度AI眼鏡怎樣重新定義人與世界的交互方式!
果然在主會場的最后,小度科技CEO李瑩帶來了全新AI硬件產品小度AI眼鏡,號稱“行走的百科全書”。
圖片
據介紹,作為全球首款搭載中文大模型的原生AI眼鏡,實現了佩戴舒適性與功能全面性的融合。李瑩表示,AI眼鏡作為人類的第一視角設備,其捕捉視覺、聲音、位置等信息的能力,將給人們帶來前所未有的感官延伸,也一定會成為更高效、便捷的人機交互入口,帶給人們全新的視角和更細致的感受,重新定義人與世界的互動方式。
重量輕達45g,30分鐘快充,56h待機,全雙工對話,八面聰聽,搭載DuerOS操作系統,攝像頭清晰度方面,視頻理解方面以及軟硬一體的整合設計能力也在業內處于領先的水平。
具體的參數大家可以翻看官網的預告,這里不再贅述了。小度科技CEO李瑩表示,小度AI眼鏡將于明年上半年正式上市,至于價格,也沒有公開,此前曾傳言2300左右,不過一切未定,敬請期待吧。
本文轉載自??51CTO技術棧??,作者:言征
