可能是目前最好的3B多模態模型,有望做“AI作業幫”
作者 | 徐浚哲、尹宇陽
我們團隊近期開源多模態模型VLR1-3B的預覽版(preview),歡迎大家嘗試:
https://huggingface.co/TencentBAC/TBAC-VLR1-3B-preview
我們訓練了一個3B的“小”模型,使用了強化學習訓練方式,增強了推理性能。達到了同級別模型中推理能力第一(SOTA)。
主要是數學相關的測試,在MathVista和MathVision這兩個權威AI數學榜單的官網上,VLR1-3B 這“小”模型不僅都在榜,而且比很多商業閉源大模型(如Gemini1.5和GPT-4V)表現都要強,甚至在MathVista的評測中領先GPT-4o~
同時對比了多個banchMark結果,Average第一~
Model | Average | MathVista | MathVision | MathVerse | DynaMath | WeMath | LogicVista |
Qwen2-VL-2B | 20.5 | 48.0 | 16.1 | 17.5 | 3.8 | 10.8 | 26.6 |
InternVL2.5-2B | 21.2 | 51.1 | 14.0 | 22.3 | 4.4 | 8.0 | 27.3 |
InternVL3-2B | 29.1 | 57.6 | 20.2 | 24.5 | 14.8 | 22.9 | 40.3 |
Qwen2.5-VL-3B | 31.8 | 61.2 | 21.9 | 31.2 | 13.2 | 22.9 | 40.3 |
VLM-R1-3B-Math-0305 | 33.4 | 62.7 | 21.9 | 32.2 | 13.0 | 30.0 | 40.5 |
Taichu-VLR-3B | 33.6 | 64.9 | 23.1 | 32.1 | 12.6 | 30.4 | 38.7 |
VLAA-Thinker-Qwen2.5VL-3B | 35.4 | 61.0 | 24.4 | 36.4 | 18.2 | 33.8 | 38.5 |
TBAC-VLR1-3B-preview | 35.7 | 64.8 | 25.0 | 33.2 | 17.7 | 32.4 | 40.8 |
正巧最近正愁幫鄰居剛上初中的孩子批數學作業,被多項式計算和幾何證明搞得焦頭爛額的。
現在試著擼個自己的“AI作業幫”,幫干活。
一、AI作業助手
要說明的是,AI作業助手,特別是數學作業助手,僅僅有答案還不夠,更重要的是給出推導過程。這也是VLR1-3B的重要能力,就是它的推理能力。
下面來看一下搭載了VLR1-3B模型后,我這個丐版的“作業幫”真實的答題效果。
1. 多項式計算
先從真題試卷中截取了兩道基礎計算題進行測試:
哪怕是拍照的試卷問題也可以準確的識別,計算過程也清晰,答案正確??,通過。再試一道:
很好,應用了正確的公式??,鄰居家小孩似乎可以愉快的抄寫作業了呢??
2. 坐標系理解
接下來要稍微上一點難度,看看 VLR1-3B 對平面直角坐標系的理解如何:
不錯,一開始就理解了這一題的考點,并告知了題點,橫縱坐標都為負的點,然后還分析了每個選項,給出正確答案。解釋的有理有據??。以后還會有家長給熊孩子講題講到心梗嗎??
3. 函數計算
下面要進行的是函數計算,依然考驗模型從圖片中正確的讀取函數公式,并依靠推理能力得出函數計算結果:
問題:f(4)等于多少?
函數識別??,計算過程??,答案?。
4. 平面幾何
接下來是重中之重的測試,平面幾何。先來兩道填空題:
問題:△ABC的兩內角平分線OB、OC相交于點O,若∠A=110°,則∠BOC=()
表現依然出色,不僅給出了詳盡的推理過程,還給出了準確的答案 ?
接下來再來一題:
問題:如圖,在△ABC中,AB=8,BC=12,點D、E分別是邊AB、AC的中點,點F是線段DE上的一點,連接AF、BF,若∠AFB=90°,則線段EF的長為()
非常棒平面幾何解題能力??,在應用了正確的公式定理下,還會用“∵”,“∴”等專業的數學推理符號
平面幾何是中學數學的重點,與填空和選擇不同,模型有可能靠蒙答對題(人也會哈),這種證明類型的題目更考驗模型的“真本事”,再來測試一道平面幾何的證明題:
沒問題,證明過程清晰,測試通過 ?。
5. 物理
既然 VLR1-3B 在數學方面表現的這么好,何不再挑戰一下,做個物理題試試?
哦吼~,物理題也能答,還能解釋對自己的選擇。
二、What's more?
從之前的測試來看,VLR1-3B 有確實有著出眾的數學能力,從圖片的公式理解到答案的推理求解,甚至格式的輸出都有著令人滿意的效果。既然如此,當然就要“強模型所難”, 考驗一下VLR1-3B 在其他通用多模態場景的表現:
先用我最喜歡的貓咪開始測試,詢問它圖中貓的花紋、品種和年齡:
Bingo,回答很準確~
再來,因為有從事的是自動駕駛算法研究的經驗,所以凡是遇到有視覺能力的模型,都會被我拿來測一下:
連自動駕駛車輛都認識,那真實道路場景表現怎么樣呢?
相當可以,車輛數量、顏色、類型都判斷正確 ?,同時天氣和駕駛環境也準確識別。再來個夜晚場景,問問前方車輛的行駛意圖:
看來可以呀,到這,發現這確實是個麻雀雖小,五臟俱全的多模態模型~
三、結語
總體測試下來,過程中雖然也遇到了該級別模型的常見問題——如思考過程中的幻覺,特別是一些測試中,結果是正確的,但思考過程卻明顯失誤。但在后續更新和實際落地場景中,使用場景數據來Fine-tune后的模型能取得更好的效果。
話又說回來,畢竟是一個只有 3B的模型,它有望成為開源本地 “家庭 AI 作業幫”的的選手,后續會發表詳細的技術報告和論文。同時公開更多尺度的模型~