微軟贏麻了!數(shù)十億文本-圖像對訓練,多模態(tài)Florence開啟免費體驗,登上Azure
2021年11月,微軟發(fā)布了一個多模態(tài)視覺基礎模型Florence(佛羅倫薩),橫掃超過40個基準任務,輕松適用于如分類、目標檢測、VQA、看圖說話、視頻檢索和動作識別等多個任務。
時隔一年半,F(xiàn)lorence正式開啟商用階段!
Florence能干什么?
最近,微軟全球人工智能首席技術官黃學東官宣了微軟 Florence 基礎模型的公開預覽版。
Florence模型經(jīng)過數(shù)十億文本-圖像對的訓練,目前已集成進Azure 認知視覺服務中,在「價格」和「性能」上都已到達「生產(chǎn)環(huán)境」的要求,目前處于免費試用階段。
改進后的視覺服務使開發(fā)商能夠在不同行業(yè)創(chuàng)建前沿的、適應市場的、負責任的計算機視覺應用程序。客戶可以將他們的數(shù)據(jù)無縫地數(shù)字化、分析并連接到自然語言的交互中,從圖像和視頻內容中獲取更精確的信息,保護用戶遠離有害內容,增強安全性,并提升事件響應速度。
Florence的實際能力也很強大,用戶可以在Vision Studio中進行「開箱即用」的體驗。
體驗網(wǎng)址:https://portal.vision.cognitive.azure.com/gallery/featured
具體包括:
Dense Captions(詳細的描述):可以自動提供內容豐富的描述信息、設計建議、可訪問的替代文本、搜索引擎優(yōu)化、智能照片管理等以支持數(shù)字化內容。
圖像檢索:使用自然語言查詢,無縫地度量圖像和文本之間的相似性,從而改進搜索推薦和廣告。
背景去除:可以方便地從原始背景中分割出人物和物體,并替換為其他背景場景,從而改變圖像的外觀和感覺。
模型定制:降低交付定制模型的成本和時間,能夠以更高精度來匹配獨特的業(yè)務需求,即便只有少量的可用圖像。
視頻摘要:搜索和交互視頻內容,與人類同樣直觀的方式進行思考和寫作。可以幫助找到相關內容,并且不需要額外的元數(shù)據(jù)。
Reddit消費品產(chǎn)品經(jīng)理Tiffany Ong表示,通過微軟的Vision技術,可以使用戶更容易發(fā)現(xiàn)和理解Reddit上的內容。
新創(chuàng)建的圖片描述可以讓用戶更容易地訪問Reddit,使用圖像描述來幫助用戶提高文章的搜索結果,讓Reddit用戶有更多機會來探索網(wǎng)站上的圖片,參與對話,并最終建立聯(lián)系和社區(qū)感知。
Florence能夠為每張圖片生成多達10000個標簽,使得Reddit能夠更好地控制圖片中的物體數(shù)量,并幫助生成更好的圖像描述。
Microsoft 365
除了微軟數(shù)據(jù)中心之外,微軟也正在提升Microsoft 365應用程序(包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive)中視覺服務的能力。
在圖像分割能力的幫助下,Teams正在推動數(shù)字空間的創(chuàng)新型,把虛擬會議的體驗提升到新高度。
PowerPoint、 Outlook和Word利用自動替換文本的圖像描述來提高可訪問性。
Microsoft Designer和OneDrive正在使用改進的圖像描述、圖像搜索和背景生成來簡化圖像的可發(fā)現(xiàn)性和編輯。
Microsoft數(shù)據(jù)中心正在利用Vision Services來增強安全性和基礎設施的可靠性。
LinkedIn的無障礙工程負責人Jennison Asuncon表示,LinkedIn上有超過40%的帖子中包含至少一張圖片,對于盲人或是低視力的用戶來說,視覺服務能夠讓所有用戶都有平等的閱讀機會,并使他們能夠參與到在線對話中。
通過Azure視覺認知服務,LinkedIn可以提供自動圖像描述來編輯和支持可選文本,這是一種全新的體驗。
不僅我對此感到興奮,我的同事剛剛分享了一個他們參加活動的照片,LinkedIn的首席執(zhí)行官Ryan Roslansky也在照片里。
負責任地創(chuàng)新
回顧負責任的人工智能原則,可以了解到微軟是如何致力于開發(fā)人工智能系統(tǒng),以提升世界的可訪問性。
微軟致力于幫助各個組織充分利用人工智能,并正在大力投資于提供技術、資源和專業(yè)知識的項目,以增強那些致力于創(chuàng)造一個更可持續(xù)、更安全和更容易進入的世界的人的能力。
多模態(tài)是未來
包括微軟、谷歌在內的多個科技巨頭在人工智能發(fā)展方向上出奇地一致,認為「多模態(tài)模型」是提高人工智能系統(tǒng)能力的最佳途徑,也就是單個模型可以同時理解語言、圖像、視頻和音頻等,并能夠完成單模態(tài)模型無法完成的任務,比如給視頻添加文字描述等。
為什么不把幾個「單模態(tài)」模型串在一起,以達到同樣的目的,比如說用一個模型來理解圖像,而另一個模型用來理解語言?
第一個原因是,由其他模態(tài)提供的背景信息,多模態(tài)模型可以在某些情況下比單模態(tài)模型在同一任務中表現(xiàn)得更好。
比如說,一個能夠理解圖像、定價數(shù)據(jù)和購買歷史的人工智能助手可以比一個「只理解定價數(shù)據(jù)」的AI能夠提供更好的個性化產(chǎn)品建議。
并且從計算的角度來看,多模態(tài)模型往往更有效率,可以提升數(shù)據(jù)處理的速度,降低后端的成本。
毫無疑問,所有商業(yè)公司都渴望降本增效。
Florence能夠理解圖像、視頻和語言以及這些模態(tài)之間的關系,從而可以做到一些單模態(tài)無法完成的任務,比如測量圖像和文本之間的相似度,分割照片中的對象,然后把它們粘貼到另一個背景上。
幾乎所有AI模型的訓練都面臨數(shù)據(jù)版權問題,Azure AI的企業(yè)副總裁(CVP)John Montgomery在回答有關「Florence的訓練數(shù)據(jù)」時沒有透露太多信息,只是說Florence使用的是「負責任地獲取」的數(shù)據(jù)源,包括來自合作伙伴的數(shù)據(jù);此外,Montgomery表示,訓練數(shù)據(jù)中刪除了可能存在問題的內容,也是公開訓練數(shù)據(jù)集的常見特點。
Montgomery認為,當使用大型基礎模型時,最重要的是要確保訓練數(shù)據(jù)集的質量,為每個視覺任務的適應模型創(chuàng)建基礎,微軟針對每個視覺任務的調整模型都經(jīng)過了公平性、對抗性和挑戰(zhàn)性案例的測試,并實現(xiàn)了與 Azure Open AI Service 和 DALL-E 相同的內容審核服務。
在未來,消費者可以使用Florence做更多的事情,比如檢測制造過程中的缺陷,以及在零售店實現(xiàn)自助結賬。
不過Montgomery指出這些用例實際上并不需要多模態(tài)視覺模型,但他斷言,多模態(tài)在這個過程中可以增加一些有價值的東西。
Florence是一個經(jīng)過「完全重新思考」的視覺模型,一旦在圖像和文本之間實現(xiàn)了簡單且高質量的翻譯過程,就會打開一個全新的、充滿未知可能性的世界。
客戶能夠體驗到顯著改進的圖像搜索,將圖像和視覺模型以及語言和語音等其它模型類型訓練成全新類型的應用,并輕松提高自定義模型的質量。