首次超越人類！“讀圖會意”這件事，AI比你眼睛更毒辣

作者：金磊 2021-08-16 10:21:01

就在最近，國際權(quán)威機(jī)器視覺問答榜單VQA Leaderboard，更新了一項(xiàng)數(shù)據(jù)：AI在“讀圖會意”任務(wù)中，準(zhǔn)確率達(dá)到了81.26%。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

在超越人類這件事上，AI 又拿下一分。

就在最近，國際權(quán)威機(jī)器視覺問答榜單VQA Leaderboard，更新了一項(xiàng)數(shù)據(jù)：

AI在“讀圖會意”任務(wù)中，準(zhǔn)確率達(dá)到了81.26%。

首次超越人類！“讀圖會意”這件事，AI比你眼睛更毒辣 | 達(dá)摩院">

要知道，我們人類在這個(gè)任務(wù)中的基準(zhǔn)線，也才80.83%。

而解鎖這一成就的，是來自阿里巴巴達(dá)摩院團(tuán)隊(duì)的AliceMind-MMU。

而此舉也就意味著，AI 于2015年、2018年分別在視覺識別和文本理解超越人類之后，在多模態(tài)技術(shù)方面也取得了突破！

這個(gè)AI有多會看圖？

來看下面幾個(gè)例子就知道了。

當(dāng)你問AI：“這些玩具用來做什么的？”

它就會根據(jù)小熊穿的禮服，回答道：

婚禮。

首次超越人類！“讀圖會意”這件事，AI比你眼睛更毒辣 | 達(dá)摩院">

給AI再提一個(gè)問題：“男人的橄欖球帽代表哪只球隊(duì)？”

它會根據(jù)帽子中的“B”字母回答：

波士頓球隊(duì)。

首次超越人類！“讀圖會意”這件事，AI比你眼睛更毒辣 | 達(dá)摩院">

加大挑戰(zhàn)難度再來一個(gè)。

“圖中玩具人的IP出自哪部電影？”

這時(shí)候，AI 就會根據(jù)圖中的玩具，還有戰(zhàn)斗場景等信息，做一個(gè)推理。

不過最后還是精準(zhǔn)的給出了答案：

星球大戰(zhàn)。

首次超越人類！“讀圖會意”這件事，AI比你眼睛更毒辣 | 達(dá)摩院">

再例如下面這些例子中，AI都會捕捉圖片中的細(xì)節(jié)信息，來精準(zhǔn)回答提出的問題。

首次超越人類！“讀圖會意”這件事，AI比你眼睛更毒辣 | 達(dá)摩院">

嗯，可以說是細(xì)致入微了。

可能上面的這些案例，對于人類來說并不是很困難。

但對于AI來說，可不是件容易的事情。

一個(gè)核心難點(diǎn)就是：

需要在單模態(tài)精準(zhǔn)理解的基礎(chǔ)上，整合多模態(tài)的信息進(jìn)行聯(lián)合推理認(rèn)知，最終實(shí)現(xiàn)跨模態(tài)理解。

怎么破？

阿里達(dá)摩院的做法是，對AI視覺-文本推理體系進(jìn)行了系統(tǒng)性的設(shè)計(jì)，融合了大量的創(chuàng)新算法。

首次超越人類！“讀圖會意”這件事，AI比你眼睛更毒辣 | 達(dá)摩院">

具體來看，大致可以分為四個(gè)內(nèi)容：

多樣性的視覺特征表示：從各方面刻畫圖片的局部和全局語義信息，同時(shí)使用Region，Grid，Patch等視覺特征表示，可以更精準(zhǔn)地進(jìn)行單模態(tài)理解；
基于海量圖文數(shù)據(jù)和多粒度視覺特征的多模態(tài)預(yù)訓(xùn)練：用于更好地進(jìn)行多模態(tài)信息融合和語義映射，提出了SemVLP、Grid-VLP、E2E-VLP和Fusion-VLP等預(yù)訓(xùn)練模型。
自適應(yīng)的跨模態(tài)語義融合和對齊技術(shù)：在多模態(tài)預(yù)訓(xùn)練模型中加入Learning to Attend機(jī)制，來進(jìn)行跨模態(tài)信息地高效深度融合。
Mixture of Experts (MOE）技術(shù)：進(jìn)行知識驅(qū)動的多技能AI集成。

首次超越人類！“讀圖會意”這件事，AI比你眼睛更毒辣 | 達(dá)摩院">