豆包升級了“眼睛”，看APP截圖就能寫代碼了！超低價讓多模態AI普惠

2024-12-20 07:10:00

人工智能

我們請出的打擂臺選手，正是目前大模型的頂流之一——OpenAI的GPT-4o。比試規則也很簡單，就是通過不同維度的試題，來看看作答的效果。

豆包的“眼睛”升級了，現在讓它看一眼APP截圖，就能直接給你生成代碼！

話不多說，我們直接給它上一個難度。

例如我們先隨機截取一張網站的圖片：

再來到火山方舟的大模型廣場，pick一下最新的Doubao-vision-pro-32k版本：

（PS：該模型也可以在豆包APP中體驗）

然后把剛才的截圖“喂”給豆包，并附上一句簡單的Prompt：

幫我寫代碼，克隆這個APP。

只見豆包先是秒看出這是一個音樂APP的界面，緊接著就唰唰唰地敲起了代碼。

從代碼的功能上來，包括了菜單欄、播放列表框架、播放列表列表框和狀態欄。

模擬的播放列表中包含了幾首歌曲的信息，包括標題、藝術家、時長和點贊數等。

而且這些都是在不到30秒內完成的。

若是想實現更復雜的功能，我們也是可以繼續用說的：

那繼續幫我實現更復雜的音樂播放應用。

這一次，也僅僅耗時1分鐘，在原先代碼的基礎上，新增了控制面板、播放按鈕、更新進度條等內容。

嗯，現在開發一個APP，真的變成截張圖的事兒了。

這便是豆包最新發布的新模型——豆包 · 視覺理解模型。

綜合來看，它的亮點可以歸結為如下三點：

內容識別更強：支持OCR、圖像知識、動作情緒、位置狀態等，尤其對中國傳統文化理解更深。
理解與推理增強：優化數學、邏輯、代碼的推理與問答能力。
視覺描述細膩：提供詳細圖像描述，可創作多種文體內容，如產品介紹、故事、視頻腳本等。

更重要的一點，發布即大降價——0.003元/千tokens。

相當于1塊錢可以處理284張圖片！

不過有一說一，畢竟考驗大模型“視力”這事，不能只看單一的產品。

因此，接下來，我們就組個擂臺，看看哪個大模型的“眼神”更好使。

大模型“視力”大比拼

我們請出的打擂臺選手，正是目前大模型的頂流之一——OpenAI的GPT-4o。

比試規則也很簡單，就是通過不同維度的試題，來看看作答的效果。

Round 1：復雜、生僻物體識別

第一輪比試中，我們先小試牛刀一下一個不常見的水果，請看圖：

然后我們分別問一下兩位選手：

圖中的是什么東西？

△上圖為豆包作答；下圖為GPT-4o作答（下同）。

從回答內容上來看，二者雖然都回答對了，但特點各有不同。

豆包·視覺理解模型回答更加與金鈴子緊密相關；而GPT-4o則是更傾向于金鈴子與苦瓜的不同。

若是比試要求是與圖中物體高度相關，那么或許豆包·視覺理解模型的回答更優質一些。

再來一張冷門的圖像，請看題：

這是什么？

再來看一下兩位選手的作答：

它們都看出來這是一個冷門樂器，不過這一次，豆包·視覺理解模型明顯回答的要更精準一些——樂器叫做Mizmar。

不僅如此，它還把其材質、文化特點等信息都講述了出來；而GPT-4o這邊的回答，只能說是描述了大概。

這一輪，豆包·視覺理解模型，Win！

Round 2：大家來找茬

要比視力，那“大家來找茬”這個游戲就絕對不能錯過啦~

請看題目：

找出10個不同點。

我們來看一下兩位選手的回答：

這一輪的比拼中，問題就比較明顯了，兩位選手都沒有完整給出正確答案（部分正確）。

看來AI玩大家來找茬還是具備一定的挑戰性。

Round 3：反向猜Prompt

現在AI圖片生成的能力可謂是爐火純青，但當我們看到一幅中意的作品，卻苦于無法復刻Prompt時，又該怎么辦？

這道題，是時候可以交給“會看”的大模型來處理了。

例如我們隨機來一張比較抽象的藝術作品：

然后分別讓豆包·視覺理解模型和GPT-4o來猜一下它的Prompt：

看這張圖，幫我寫一段能夠重新生成類似作品的Prompt。

為了公平起見，我們不采用豆包和ChatGPT自帶的生圖功能，而是將兩段Prompt交給第三方Midjourney來處理，結果如下：

△上圖：基于豆包的Prompt；下圖：基于GPT-4o的Prompt

從還原度上來看，或許豆包·視覺理解模型給出的Prompt，是更加貼近原作的那一個。

Round 4：數學競賽大比拼

數學題目是測試大模型邏輯推理能力很好的方法。

因此，我們直接上一道AIME數學競賽題，看看夠不夠“開門”。

（AIME：美國數學邀請賽，是介于AMC10、AMC12及美國數學奧林匹克競賽之間的一個數學競賽。）

這道題目翻譯過來是這樣的：

每天早晨，Aya會進行一段長度為9公里的散步，然后在一家咖啡店停留。當她以每小時s公里的恒定速度行走時，整個散步加上在咖啡店停留的時間一共需要4小時，其中包含在咖啡店停留的t分鐘。當她以s+2公里每小時的速度行走時，整個過程（包括在咖啡店停留的時間）需要2小時24分鐘。
假設Aya以s+1/2公里每小時的速度行走，求她在這種情況下（包括在咖啡店停留的時間）的總時間（以分鐘為單位）。

這個任務的難度在于，AI需要先準確識別晦澀的數學問題和公式，而后再進行精準的推理。

接下來，我們分別來看下豆包·視覺理解模型和GPT-4o的表現（上下滑動查看）：