Facebook利用10億張社交軟件圖片,訓練AI新算法
Facebook研究人員日前發布了一個新的人工智能模型SEER,SEER模型可以利用互聯網上任何一組隨機的、未被標記的圖像進行學習。Facebook這一“突破”雖然還處于早期階段,但團隊預計該“突破”將導致計算機視覺領域的一場"革命"。
SEER是SElf-SupERvised(自我監督[學習])的英文縮寫,SEER的訓練用了10億張公開的instagram圖片,這些圖片是未經人工策劃過的。即圖片沒有做過通常用于算法訓練的標簽和注釋處理,但SEER仍然能夠自主地利用數據集一邊學習一邊處理數據,最終可以在物體檢測等任務上達到最高的準確度。
SEER用的這種方法被稱為「自我監督學習」,自我監督學習在人工智能領域已經非常成熟,可以直接從用于訓練的信息創建學習系統,不必依靠經過仔細標記的數據集訓練如何執行任務,例如識別照片里的對象,或翻譯一段文字等任務。
自我監督學習最近在科學界受到大量關注,因為這個方法,意味著對人類標注數據的需要少很多,標注數據是一項費力費時的任務,是大多數研究人員都不愿做的事情。同時,由于自監督模型不需要經人工策劃的數據集,因此可以利用更大、更多樣化的數據集。
在某些領域(尤其是自然語言處理領域),自我監督學習方法已經取得了突破性的進展。許多利用無標記文本訓練的算法使得諸如答疑、機器翻譯、自然語言推理等應用取得了各種進展。
相比之下,計算機視覺還沒有完全投入自我監督學習的革命之中。Facebook AI Research的軟件工程師Priya Gopal稱,SEER標志著計算機視覺領域的第一次。她告訴記者,"SEER是第一個完全自我監督的計算機視覺模型,是利用互聯網的隨機圖像進行訓練的,而相比之下,計算機視覺領域現有的自我監督方面的工作,都是利用經大量編輯過的ImageNet數據集進行訓練。"
ImageNet實際上是個由數百萬張圖片組成的大規模數據庫,這些圖片都被研究人員標注了標簽,ImageNet面向廣大計算機視覺界開放,目的是推動人工智能的發展。
Facebook的研究人員以該項目的數據庫,作為基準評估SEER的性能,他們發現,自監督模型在低照、物體檢測、分割和圖像分類等任務上的表現優于最先進的監督型AI系統。
Goyal表示,"SEER僅利用隨機圖像進行訓練,性能卻優于現有的自我監督模型。這個結果基本上表明,我們在計算機視覺中不需要像ImageNet這種經高度策劃過的數據集,利用隨機圖像進行自我監督學習已經可以產生非常高質量的模型。"
由于自我監督學習需要的精密程度較高,研究人員在這方面的工作也并非沒有挑戰。在涉及到文本時,人工智能模型要做的是賦予單詞特定的意思;但對于圖像而言,算法必須給每個像素賦予一個對應的概念,同時要考慮同一個概念在不同圖片中的各種角度、視圖和形狀。
換句話說,研究人員處理圖像時,需要大量的數據以及可以復雜的信息庫中推導出所有可能的視覺概念的模型。
Goyal和她的團隊為了達到這個目的,在Facebook AI自我監督學習方面的現有基礎上,開發了名為「SwAV」的新算法,SwAV算法將那些顯示相似概念的圖像分類為不同的組。Facebook科學家們還設計了一個深度學習算法的卷積網絡,該卷積網絡可以模擬人腦中神經元的連接模式,以及為圖像中的不同對象賦予不同的重要性。
該系統用了10億instagram圖的強大數據集,至少規模是夠大了。Facebook的團隊用了V100 Nvidia GPU和32GB內存,模型規模增大后,團隊也只得用模型去套可用的內存。但Goyal解釋說,下一步的研究將有助于確保計算能力可以適應新系統。
她表示,"我們要在越來越多的GPU上訓練模型時,GPU之間的通信需要足夠快速,以達到實現更快訓練的目的。這樣的挑戰可以通過開發明確的軟件和研究技術得到解決,開發的軟件和技術能夠針對特定的內存和運行時間預算行之有效。"
因此,在SEER付諸實際使用案例之前還有一些工作要做。但Goyal認為,SEER技術的影響不應該被低估。她表示,"SEER技術使得我們現在可以利用大量豐富的互聯網隨機圖像訓練大型模型,可以在計算機視覺領域取得各種進展。"
Goyal稱,"這一突破,可以實現計算機視覺領域的自我監督學習革命,其和我們在自然語言處理里看到的涉及文本的自我監督學習革命有些類似。"
SEER在Facebook內部可以用在廣泛的計算機視覺任務上,包括自動生成圖像描述、幫助識別違反政策的內容等等。SEER技術在Facebook以外的地方也可以在圖像和元數據有限的領域發揮作用,比如醫療成像。
Facebook的團隊呼吁各方面做更多的工作,以推動SEER進入下一個發展階段。Facebook團隊還開發了基于PyTorch的多用途庫,可用于自我監督學習,庫名為「VISSL」,已開源,目的是鼓勵廣泛的AI社區使用該技術進行測試。