成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

順手訓了一個史上超大ViT？Google升級視覺語言模型PaLI：支持100+種語言

作者：新智元 2022-09-23 15:36:07

人工智能新聞

壕無人性！最近Google又利用鈔能力，不僅將語言模型PaLM升級為視覺語言模型，還訓了一個史上最大的ViT模型！

近幾年自然語言處理的進展很大程度上都來自于大規(guī)模語言模型，每次發(fā)布的新模型都將參數量、訓練數據量推向新高，同時也會對現有基準排行進行一次屠榜！

比如今年4月，Google發(fā)布5400億參數的語言模型PaLM（Pathways Language Model）在語言和推理類的一系列測評中成功超越人類，尤其是在few-shot小樣本學習場景下的優(yōu)異性能，也讓PaLM被認為是下一代語言模型的發(fā)展方向。

同理，視覺語言模型其實也是大力出奇跡，可以通過提升模型的規(guī)模來提升性能。

當然了，如果只是多任務的視覺語言模型，顯然還不是很通用，還得支持多種語言的輸入輸出才行。

最近Google就將PaLM擴展升級成PALI（Pathways Language and Image model），兼具多語言和圖像理解的能力，同時支持100+種語言來執(zhí)行各種橫跨視覺、語言和多模態(tài)圖像和語言應用，如視覺問題回答、圖像說明（image caption）、物體檢測、圖像分類、OCR、文本推理等。

論文鏈接：?https://arxiv.org/abs/2209.06794?

模型的訓練使用的是一個公開的圖像集合，其中包括自動爬取的109種語言的標注，文中也稱之為WebLI數據集。

在WebLI上預訓練的PaLI模型在多個圖像和語言基準上取得了最先進的性能，如COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA等等，也超越了先前模型的多語言視覺描述（multilingual visual captioning）和視覺問答的基準。

模型架構

PALI的目標之一是研究語言和視覺模型在性能和規(guī)模上的聯(lián)系是否相同，特別是語言-圖像模型的可擴展性（scalability）。

所以模型的架構設計上就很簡單，主要是為了實驗方便，尤其是可重復使用且可擴展。

模型由一個處理輸入文本的Transformer編碼器和一個生成輸出文本的自回歸Transformer解碼器組成。

在處理圖像時，Transformer編碼器的輸入還包括代表由ViT處理的圖像的視覺詞（visual words）。

PaLI模型的一個關鍵設計是重用，研究人員用之前訓練過的單模態(tài)視覺和語言模型（如mT5-XXL和大型ViTs）的權重作為模型的種子，這種重用不僅使單模態(tài)訓練的能力得到遷移，而且還能節(jié)省計算成本。

模型的視覺組件使用的是迄今為止最大的ViT架構ViT-e，它與18億參數的ViT-G模型具有相同的結構，并使用相同的訓練參數，區(qū)別就是擴展為了40億參數。

雖然在視覺領域和語言領域都對縮放規(guī)律進行了研究，但在視覺和語言的組合模型中對縮放行為的探討較少，擴大視覺骨干模型的規(guī)?？赡軙е略诜诸惾蝿罩械氖找骘柡汀?/span>

研究人員也進一步證實了這一點，可以觀察到 ViT-e在ImageNet上只比ViT-G好一點，但ViT-e在PaLI的視覺語言任務上有很大的改進。例如，ViT-e在COCO字幕任務上比ViT-G多出近3個CIDEr點。任務上比ViT-G多出3分。這也暗示了未來在視覺語言任務中使用更大的ViT骨架模型的空間。

研究人員采用mT5骨干作為語言建模組件，使用預訓練的mT5-Large（10億參數）和mT5-XXL (130億參數)來初始化PaLI的語言編碼器-解碼器，然后在許多語言任務中進行繼續(xù)混合訓練，包括純語言理解任務，這也有助于避免災難性的遺忘mT5的語言理解和生成能力。

最后得到了三個不同尺寸的PALI模型。

109種語言的數據集

深度學習相關的擴展研究表明，模型越大，所需的訓練數據集也越大。

所以為了全面研究和釋放語言-圖像預訓練模型的潛力，研究人員從互聯(lián)網上爬取了大量的圖像和文本數據，構建了一個全新的數據集WebLI，其中包括109種語言的120億alt-texts和100億張圖片。

除了用網絡文本進行標注外，研究人員還應用云端視覺API對圖像進行OCR識別，進而得到290億個圖像-OCR的數據對。

使用near-duplication對68個常見的視覺和視覺語言數據集的訓練、驗證和測試部分的圖像進行了去重處理，以避免下游評估任務的數據泄露。

為了進一步提高數據質量，研究人員還會根據「圖像和alt-text」的跨模態(tài)相似度進行評分，并調整閾值，最后只保留10%的圖像，總共有10億張圖像用于訓練PaLI

訓練大模型

由于視覺-語言任務是多模態(tài)，所以需要模型具有多種語義處理能力，而且會有不同的目標。比如有些任務需要對物體進行局部定位以準確解決任務，而其他一些任務可能需要更多的全局語義信息。

同樣地，有的語言任務可能需要長的答案，而有些則需要緊湊的答案。

為了解決所有這些不一致的目標，研究人員利用WebLI預訓練數據的豐富性，引入預訓練任務的混合（Pretraining Task Mixture），為各種下游應用準備模型。

為了讓模型更通用以解決多種任務，作者將所有的任務歸入一個單一的通用API（輸入：圖像+文本；輸出：文本），使多個圖像和語言任務之間能夠進行知識共享，這也是與預訓練設置的共享。

用于預訓練的目標作為加權的混合被投影到同一個API中，目的是既保持重復使用的模型組件的能力，又能訓練模型執(zhí)行新的任務。

模型使用開源的T5X和Flaxformer框架在JAX中用Flax進行訓練，視覺部分的ViT-e使用開源的BigVision框架，將語言部分的詞向量與視覺部分生成的patch向量級聯(lián)起來，共同作為多模態(tài)編碼器-解碼器的輸入，編碼器使用mT5-XXL預訓練初始化。在PaLI的訓練過程中，視覺組件的權重被凍結，只更新多模態(tài)編碼器-解碼器的權重。

在實驗部分，研究人員在常見的視覺語言基準上對PaLI進行了比較，且PaLI模型在這些任務上取得了最先進的結果，甚至超過了以往文獻中提出的超大型的模型。

比如170億參數的PALI在一些VQA和圖像標題任務上的表現優(yōu)于800億參數的Flamingo模型。

并且PALI在單語言或單視覺的任務上也保持了良好的表現，雖然這并非是PALI主要的訓練目標。

文中還研究了圖像和語言模型組件在模型擴展方面是如何相互作用的，以及模型在哪里產生最大的收益。

最后得出的結論是，對這兩個組件進行聯(lián)合擴展（縮放）會產生最好的性能，具體來說，對需要相對較少參數的視覺組件進行縮放是最關鍵的，同時縮放對于提高多語言任務的性能也很重要。

在35種語言的基準Crossmodal-3600上評估了PaLI后可以發(fā)現多語言起標題任務從PaLI模型的擴展中受益更多。

為了避免在大型語言和圖像模型中產生或加強不公平的偏見，需要對所使用的數據和模型如何使用這些數據保持透明，以及測試模型的公平性并進行負責任的數據分析，所以文中同時提供了一個Data Card和Model Card

責任編輯：張燕妮來源：新智元

語言模型 Google

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：夜夜骚| 欧美日韩国产一区二区三区 | 777zyz色资源站在线观看 | 九九热这里只有精品6 | 玖玖国产精品视频 | 2019中文字幕视频 | 国产精品1区 | 国产亚洲一区在线 | 操亚洲 | 国产精品日日做人人爱 | 91精品国产综合久久久亚洲 | 亚洲精品综合 | 久久精品亚洲 | 久久久国产一区二区三区四区小说 | 视频精品一区二区三区 | 日韩在线一区二区三区 | 日韩电影中文字幕在线观看 | 黑人精品欧美一区二区蜜桃 | 欧美亚洲免费 | 欧美亚洲国产精品 | 亚洲国产精品一区二区www | 国产一级免费视频 | 成人免费三级电影 | 日韩中文字幕一区二区三区 | 国产女人与拘做视频免费 | 欧美最猛性xxxxx亚洲精品 | 欧美视频成人 | 一区二区三区四区免费观看 | 99国产精品久久久 | 一区在线播放 | www.亚洲国产精品 | 天天狠狠 | 在线免费看毛片 | 一区二区在线 | 香蕉国产在线视频 | 亚洲精品视频在线看 | 国产精品久久久久久久久久尿 | 成人性视频在线播放 | 久久精品国产一区二区三区 | 国产真实精品久久二三区 | 最新午夜综合福利视频 |