一切皆有可能:計算機視覺CV和 NLP 領域日益融合
2020年10 月份,深度學習領域頂級會議 ICLR 2021 論文投稿結束。
這次盛會,又有大牛在深度學習領域有了新突破。這次技術的變革會帶來哪些影響呢?且聽東方林語娓娓道來。
人工智能應用在CV計算機視覺領域中,CNN卷積神經網絡一直占據相當主流的地位。
而Transformer 架構,在NLP自然語言處理任務中,得到了廣泛應用。
兩個領域,每項技術各有所長,彼此之間井水不犯河水。
但是,近年來不斷有專家學者嘗試將 NLP 領域的 Transformer 進行跨界研究,經過一段時間的試驗,在一些圖像場景還實現了相當不錯的結果。

本次ICLR 2021 就有一篇論文,嘗試將標準 Transformer 架構直接應用于計算機視覺領域,提出了一個新的 Vision Transformer 模型,并在多個圖像識別基準上實現了接近甚至優于當前 SOTA 方法的性能。
SOTA也就是state-of-the-art,若某篇論文能夠稱為SOTA,就表明其提出的算法(模型)的性能在當前是最優的。
該研究表明,對 CNN 的依賴不是必需的,當直接應用于圖像塊序列時,transformer 也能很好地執行圖像分類任務。
特斯拉 AI 負責人 Andrej Karpathy 專門轉發了該論文,并表示:
樂見計算機視覺和 NLP 領域日益融合。

技術進步,一切皆有可能。
如果能夠將NLP VS CV模型的跨界學習進行到底,圖像視覺領域的Transformer能把原來的龍頭老大CNN拉下馬嗎?
這就是一個非常有意思的命題了。
ICLR 2021 有什么值得關注的投稿嗎?在知乎上,有網友這樣表示:
我們正站在模型大變革的前夜,神經網絡的潛力還遠遠沒到盡頭。一種嶄新的強大的,足以顛覆整個 CV 和 AI 界的新模型才露出冰山一角,即將全面來襲。

人工智能是一項綜合性學科,需要將基礎科學、業務場景、數據質量、工程實踐等緊密結合的技術領域,近年來已經融合了更多的其他方向。
人工智能的各個分支,技術上可以互相融合與替代。也可以帶給我們更多的啟示:
作為人類的我們,其實,如果跳出自己的舒適區,也可以跨界學習、跨界融合,以更好的適應這個多變的社會。
在數字化逐漸一統天下的現在,AI技術融合,與人類的跨界融合, 將為社會進步產生更強大的推動作用。
你認為呢?
關注東方林語,一起了解更多AI知識。