騰訊元寶全面測評!國產AI“看劇”時代開啟!讀懂《慶余年》范閑,揭秘奧特曼宮斗! 原創
編輯 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
騰訊在大模型上的動作姍姍來遲。
對于“后發”的抉擇,騰訊想得很清楚。
在“騰訊元寶”上線的發布會上,騰訊云副總裁、騰訊混元大模型負責人劉煜宏說,“雖然行業內看起來火熱,但是中國移動互聯網用戶規模12.32億,國內AI頭部產品日活躍用戶規模僅數百萬。這意味著AI產品的滲透率極低,不到1%。”
圖片
在這種情景之下,盡管大家的FOMO(害怕錯過)情緒很重,但先發不見得必然獲取到優勢。豆包對于文心一言的反超就是一個例證。去年8月份推出的豆包,無論是下載量還是月活躍用戶數均超過了上半年就入局的文心一言。
因此,騰訊選擇了沉住氣,將更準確地洞察用戶需求、內部打磨產品作為自己的答案。
那么,后發的元寶能否帶來一些驚喜呢?
我們為元寶的模型能力進行了全方位的測評。同時,背靠騰訊豐富的內容生態是元寶的獨特優勢和潛力,因此也對現在的內容鏈接能力進行了評測,來看看元寶對微信、騰訊視頻、微信讀書等資源的利用情況。
圖片
在體驗元寶之后,元寶給我留下最深印象的優點就是——國內AI終于開始讀圖了!雖然豆包、Kimi也允許上傳圖片,但是他們本質做的是OCR,只識字不識圖。
圖片
但元寶可以看懂,并且可以對畫面內容進行一些理解。
圖片
雖然Ta目前看不懂自己的梗圖,并且誤解自己是個理財APP。但總體來說是個巨大的進步。
圖片
至于缺點,元寶沒有采取目前GPT、Kimi等比較主流的方法,會給每一個對話概括一個名字。方便用戶隨時回顧之前的對話內容。
元寶在開始新對話后,必須通過不斷地上拉才可以回顧之前的對話。在刪除聊天記錄時則會清楚全部的記錄(這個靈感是來自微信嗎),而且也尚未提供搜索,給人感覺不夠便利。
圖片
此外,元寶很有想法。不是那種被質問就馬上道歉說是自己出幻覺的那種AI。
詳細的測評將從以下五個維度展開。
圖片
一、自然語言處理能力
1.語言理解第一個題目由GPT-4o提供:
圖片
元寶的作答非常詳盡,因此只選取了建議部分:
圖片
從上述回答來看,元寶的理解比較深入,全面分析了給出的金融問題,并符合邏輯地提供了有價值且易于理解的投資建議。
作為AI測試界的常客,我們選擇了兩個“弱智吧”笑話,對元寶進行了測試。
第一個是生魚片是不是死魚片?以下是元寶的總結:
圖片
另一個是經典的爸媽結婚問題:
圖片
2.語言生成選擇了一道高考作文題目交給元寶作答。
元寶的作文乍一看很唬人,細品一下會發現Ta一直在跑題,主要是模型起的標題把自己帶偏了。
不過有意思的是,元寶無需提示就意識到了自己的作答身份,全篇以學生口吻完成。
二、信息檢索和知識問答
首先檢索了OpenAI的新聞,完成度不錯。OpenAI與普華永道的合作也是最新發生的事情。
圖片
但當我用馬斯克為關鍵詞進行搜索時,元寶剛開始的回答還很靠譜。
圖片
但隨著Ta思維的發散,Ta的答案走遠了……
圖片
當我追問時,元寶居然神奇的硬圓上了。(這就是元寶的性格,不會像其他模型那樣愛認錯,下文還會提到)
圖片
三、任務執行和實用工具
在任務執行中,我們考察的是元寶的路線規劃能力。
圖片
在實用工具能力上,選擇了一道難度較大的行測題目,對元寶進行了拷問。
圖片
元寶經過一通分析之后,也很好地找出了正確答案。
圖片
四、多模態交互能力
1.圖像理解
元寶的讀圖能力是我覺得最有趣的地方。
特別是Ta理解了照片拍攝的意圖,讓我感覺比較驚喜。
圖片
我甚至給元寶看了最近正在考慮組的房子戶型圖。元寶沒有像一般大模型那樣被質疑后就爆發討好性人格,而是堅持自我!(不過他應該是把廚房當成臥室了)。
圖片
2.圖像生成
元寶能根據古詩的含義進行圖像生成。如果非常依賴上下文的詩表現可能不佳,例如“知否,知否,應是綠肥紅瘦”,元寶可能會po上兩顆一紅一綠的樹上去。
圖片
生成的日常圖片逼真而有食欲。
圖片
五、騰訊內容生態鏈接能力
首先讓元寶給我推薦值得關注的美食公眾號
圖片
方向是對的,但是質量沒有那么好,里面有一些斷更一年多的公眾號也被收錄了。
同時,在檢索最近發生的事情時,元寶可以使用微信公眾號的優質資源整合作答。但是在交互時,需要注意prompt的寫法,我一開始的問法是“為什么要爆料”,此時元寶不會開啟搜索,而是選擇進行動機的推測。
圖片
圖片
另外,在檢索熱播劇時,元寶還會拉到騰訊視頻的答案,點擊可以在網頁端看視頻。不過,在進一步的測試中發現,目前的元寶還不具備閱讀和理解視頻的能力。
圖片
其實,依托騰訊龐大的生態。元寶完全有機會成為一個很好的個人助手。
期待元寶能打破APP之間那道無形的墻。這其中的想象力以及能釋放給用戶的便利可能遠超你我的想象。
圖片
?本文轉載自??51CTO技術棧??,作者:伊風
