大型視覺模型何時會有ChatGPT時刻?
2022年11月推出的ChatGPT是自然語言處理(NLP)的一個分水嶺,因為它展示了轉(zhuǎn)換器(Transformer)架構在理解和生成文本數(shù)據(jù)方面的驚人有效性,也被稱為人工智能的ChatGPT時刻。現(xiàn)在,隨著預訓練大型視覺模型(LVM)的興起,我們在計算機視覺領域看到了類似的情況。但是,這些模型何時才能將視覺數(shù)據(jù)廣泛應用呢?
自2010年左右以來,計算機視覺領域的最先進技術是卷積神經(jīng)網(wǎng)絡(CNN),這是一種模仿生物大腦中神經(jīng)元相互作用的深度學習架構。CNN框架,如ResNet,為圖像識別和分類等計算機視覺任務提供了動力,并在工業(yè)中得到了一些應用。
在過去十年左右的時間里,另一類模型,即擴散模型(Diffusion models),在計算機視覺界獲得了廣泛的關注。擴散模型是一種生成神經(jīng)網(wǎng)絡,它使用擴散過程來模擬數(shù)據(jù)的分布,然后可以用類似的方式生成數(shù)據(jù)。流行的擴散模型包括Stable diffusion,這是一種基于互聯(lián)網(wǎng)上23億張英文字幕圖像預訓練的開放式圖像生成模型,能夠基于文本輸入生成圖像。
重點來了
2017年發(fā)生了一次重大的架構轉(zhuǎn)變,當時谷歌在其論文《注意力就是你所需要的一切》中首次提出了轉(zhuǎn)換器架構。轉(zhuǎn)換器架構基于一種根本不同的方法。它省去了卷積和遞歸CNN,以及遞歸神經(jīng)網(wǎng)絡中的RNN(主要用于NLP),完全依賴于一種稱為注意力機制的東西,即序列中每個組件的相對重要性是相對于序列中的其他組件計算的。
這種方法在NLP用例中被證明是有用的,谷歌研究人員首次應用了這種方法,并直接導致了大型語言模型(LLM)的創(chuàng)建,如OpenAI的生成預訓練轉(zhuǎn)換器(GPT),它點燃了生成式人工智能領域。但事實證明,轉(zhuǎn)換器架構的核心元素——注意力機制——并不局限于NLP。正如單詞可以被編碼為標記并通過注意力機制測量相對重要性一樣,圖像中的像素也可以被編碼成標記并計算其相對值。
2019年,當研究人員首次提出將轉(zhuǎn)換器架構用于計算機視覺任務時,開始對轉(zhuǎn)換器進行計算機視覺的功能修補。從那時起,計算機視覺研究人員一直在改進LVM領域。谷歌本身已經(jīng)開源了視覺轉(zhuǎn)換器模型ViT,而Meta則有DINOv2。OpenAI也開發(fā)了基于轉(zhuǎn)換器的LVM,如CLIP,并在其GPT-4v中包含了圖像生成功能。谷歌大腦聯(lián)合創(chuàng)始人吳恩達創(chuàng)立的LandingAI也將LVM用于工業(yè)用例。多個提供商提供了可以處理文本和圖像輸入并生成文本和視覺輸出的多模式模型。
與其他計算機視覺模型(包括擴散模型和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡)相比,基于轉(zhuǎn)換器的LVM既有優(yōu)點也有缺點。不利的一面是,LVM比CNN需要更多數(shù)據(jù)。如果你沒有大量的圖像可供訓練(LandingAI建議至少有100000張未標記的圖像),那么它可能不適合你。
另一方面,注意力機制使LVM比CNN具有根本優(yōu)勢:它們從一開始就具有全局背景,從而提高了準確率。LVM“慢慢地將整個模糊圖像聚焦”,而不是像CNN那樣試圖從單個像素開始并縮小圖像。
簡而言之,預訓練的LVM的可用性可以提供非常好的開箱即用性能,無需手動訓練,對計算機視覺的能量可能與預訓練的LLM對NLP工作負載的能量一樣大。
尖端LVM崛起
LVM興起讓Srinivas Kuppa這樣的人感到興奮,他是SymphonyAI的首席戰(zhàn)略和產(chǎn)品官,SymphonyAI是一家長期為各種行業(yè)提供人工智能解決方案的公司。
根據(jù)Kuppa的說法,由于LVM的出現(xiàn),我們正處于計算機視覺市場發(fā)生重大變化的風口浪尖。Kuppa說:“我們開始看到,大型視覺模型(LVM)真的以大型語言模型(LLM)的方式出現(xiàn)了。”
他說,LVM的一大優(yōu)勢是它們已經(jīng)(大部分)經(jīng)過培訓,消除了客戶從頭開始進行模型訓練的需要。
Kuppa稱:“這些大型視覺模型的美妙之處在于,它們在更大程度上經(jīng)過了預訓練。”“一般來說,人工智能(當然還有視覺模型)面臨的最大挑戰(zhàn)是,一旦你接觸到客戶,你就必須從客戶那里獲得大量數(shù)據(jù)來訓練模型。”
SymphonyAI在制造、安全和零售環(huán)境中的客戶互動中使用了各種LVM,其中大多數(shù)是開源的,可以在Huggingface上找到。它使用Mistral的120億參數(shù)模型Pixel,以及開源多模態(tài)模型LLaVA。
雖然預訓練的LVM在各種用例中都能很好地開箱即用,但SymphonyAI通常會使用自己的專有圖像數(shù)據(jù)對模型進行微調(diào),從而提高客戶特定用例的性能。
Kuppa說:“我們采用這種基礎模型,在將其交給客戶之前對其進行進一步的微調(diào)。”。“因此,一旦我們優(yōu)化了該版本,當它提供給我們的客戶時,效果會好很多倍。它縮短了客戶的價值實現(xiàn)時間,(這樣他們就不必)在開始使用之前處理自己的圖像、給它們貼標簽和擔心它們。”
例如,SymphonyAI在離散制造領域的長期服務記錄使其能夠獲得許多常見設備(如鍋爐)的圖像。該公司能夠使用這些圖像對LVM進行微調(diào)。然后,該模型作為其Iris產(chǎn)品的一部分進行部署,以識別設備何時損壞或何時未完成維護。
Kuppa在談到SymphonyAI時說:“我們是由50年或60年前的大量收購拼湊而成的。”SymphonyAI于2017年正式成立,得到了印度裔美國商人羅梅什·瓦德瓦尼10億美元的投資。“因此,隨著時間的推移,我們以正確的方式積累了大量數(shù)據(jù)。自生成式人工智能爆炸以來,我們所做的就是查看我們擁有的數(shù)據(jù)類型,然后盡可能匿名化數(shù)據(jù),然后以此為基礎訓練這個模型。”
LVM繼續(xù)發(fā)展
SymphonyAI為世界上最大的食品制造商之一開發(fā)了LVM。他說,該公司還與分銷商和零售商合作,實施LVM,使自動駕駛汽車能夠進入倉庫,并優(yōu)化貨架上的產(chǎn)品擺放。
Kuppa說:“我希望大型視覺模型能夠開始引起人們的關注,并看到加速增長。”“我在Huggingface上看到了足夠多的模型。我看到了一些開源的模型,我們可以利用它們。但我認為有機會大幅增加(使用)。”
LVM的限制因素之一(除了需要針對特定用例對其進行微調(diào)外)是硬件要求。LVM有數(shù)十億個參數(shù),而像ResNet這樣的CNN通常只有數(shù)百萬個參數(shù)。這給運行LVM進行推理所需的本地硬件帶來了壓力。
對于實時決策,LVM將需要大量的處理資源。在許多情況下,它需要連接到云端。Kuppa說,包括FPGA在內(nèi)的不同處理器類型的可用性可能會有所幫助,但這仍然是當前的需求。
雖然目前LVM的使用并不多,但它的足跡正在增長。在過去兩年中,試點和概念驗證(POC)的數(shù)量大幅增長,機會很大。由于預先訓練的模型,實現(xiàn)價值的時間縮短了,所以他們可以更快地開始看到它的價值及其結果,而無需預先投入太多資金。但這是否會轉(zhuǎn)化為更大規(guī)模的企業(yè)級采用,仍需要時間去觀察。”