成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

能看圖、會聊天,還會跨模態推理和定位,能落地復雜場景的DetGPT來了

人工智能 新聞
基于自帶推理能力的目標檢測模型,我們可以開發出更加智能化、自然化、高效化的機器人,為人類提供更加便捷、高效和人性化的服務。

一直以來,人類夢想著機器人能夠輔助人類處理生活和工作的事情。“請幫我調低空調的溫度”,甚至 “請幫我寫一個商城網站” 都在近年來的家居助手和 OpenAI 發布的 Copilot 上得以實現。

GPT-4 的出現,進一步為我們展示了多模態大模型在視覺理解上的潛力。開源中小模型方面,LLAVA、minigpt-4 表現不俗,可以看圖聊天,還可以為人類猜測美食圖片中的菜譜。然而,這些模型在實際落地中仍然面臨重要的挑戰:沒有精準的定位能力,不能給出某物體在圖片中的具體位置,也不能理解人類的復雜指令來檢測具體物體,因此很多時候無法執行人類的具體任務。在實際場景中,人們遇到復雜問題,如果能通過拍一張照來詢問智能助手得到正確答案,這樣的 “拍照問問” 功能簡直炫酷。

要實現 “拍照問問” 這一功能,需要機器人具備多項能力:

1. 語言理解能力:能夠聽懂并理解人類的意圖

2. 視覺理解能力:能夠理解看到的畫面中的物體

3. 常識推理能力:能夠將復雜的人類意圖轉換為可定位的精確目標

4. 物體定位能力:能夠從畫面中定位和檢測出對應物體

這四大能力,目前僅有少數的大模型(比如谷歌的 PaLM-E)同時具備。然而,來自港科大 & 港大的研究人員提出了一個全開源模型 DetGPT (全名 DetectionGPT),只需微調三百萬參數量,讓模型輕松擁有了復雜推理和局部物體定位能力,可以泛化到大多數場景。這意味著模型能夠通過自身知識的推理來理解人類抽象指令,輕松識別圖片中的人類感興趣的物體!他們已經將模型做成 “拍照問問” demo,歡迎在線體驗:https://detgpt.github.io/

DetGPT 可以讓用戶用自然語言操作一切,不需要繁瑣的命令或者界面。同時,DetGPT 還具備智能推理和目標檢測能力,可以準確地理解用戶的需求和意圖。例如人類發一個語言指令 “我想喝冷飲”,機器人首先在場景里搜索冷飲,但是沒有找到。于是開始思考 “場景里沒有冷飲,我應該去哪里找”。通過強大的常識推理能力模型想到了冰箱,于是掃描場景畫面發現了冰箱,成功鎖定飲料位置!

圖片

夏天口渴,圖片里哪里會有冰飲料?DetGPT 輕松理解找到冰箱:

圖片

明天要早起?DetGPT 輕松 pick 電子鬧鐘:

圖片

高血壓、容易累?去到水果市場,不清楚買什么水果能緩解高血壓?DetGPT 充當你的營養學老師:

圖片

塞爾達游戲不會通關?DetGPT 助你變裝通過女兒國關卡:

圖片

圖片的視野范圍內有什么危險事物?DetGPT 成為保護你的安全員:

圖片

圖片里有什么物品對小孩來說很危險?DetGPT 依然沒問題:

DetGPT 有什么特性?

  • 對圖片中具體物體的理解能力大幅提升。相比于以往的圖文對話多模態模型,我們能夠通過理解用戶指令從圖片中檢索并定位出目標物體,而不是單純對整張圖做出描述。
  • 能理解人類復雜指令,降低用戶的提問門檻。比如,模型可以理解問題 “找到圖中能夠緩解高血壓的食物”。而傳統目標檢測需要人類已知答案,提前預設檢測類別 “香蕉”。
  • DetGPT 能根據已有 LLM 知識進行推理,從而精確定位到圖中能解決復雜任務的對應物體。對于復雜的任務,比如 “緩解高血壓的食物”。DetGPT 可以對這一復雜任務逐步推理:緩解高血壓 -> 鉀元素能夠緩解高血壓 -> 香蕉富含鉀元素 -> 香蕉可以緩解高血壓 -> 需要識別物體香蕉
  • 提供人類常識范圍之外的答案。對一些不常見的問題,比如人類不了解哪些水果富含鉀,模型能根據已有知識進行解答。

值得關注的新方向:利用常識推理實現更精準開集目標檢測

圖片

傳統檢測任務要求預設可能的物體類別,從而進行檢測。但是精確且全面描述要檢測的物體,對人類來說是不友好的,甚至是不現實的。具體而言,(1)受到有限記憶 / 知識的限制,人并不總能精確表述自己想要檢測的目標物體。比如,醫生建議有高血壓的人多吃水果補充鉀元素,但不了解哪些水果富含鉀,就無法給出具體的水果名稱讓模型去檢測;如果能直接把問題 “把能緩解高血壓的水果識別出來” 拋給檢測模型,人類只需要拍一張照片,模型自身去思考、推理、和檢測富含鉀的水果,這個問題就簡單許多。(2)人類能舉例物體類別是不全面的。比如,如果相對公共場所不符合公共秩序的行為進行監控,人類或許能只能簡單列出幾個場景如持刀、吸煙;但如果直接把問題 “檢測不符合公共秩序的行為” 交給檢測模型,模型自己進行思考、根據自己的知識進行推理,則能捕捉到更多的不良行為和泛化到更多需要檢測的相關類別。畢竟普通人類所了解的知識是有限的,能夠舉出來的物體類別也是有限的,但如果有一個類似 ChatGPT 的大腦進行輔助和推理,人類所需要給出的指令就簡單多了,所獲的答案也能精確、全面許多。

基于人類指令的抽象性和局限性,港科大 & 港大的研究人員提出 “推理型目標檢測 ” 這一新方向。簡單來說,就是人類給出一些抽象的任務,模型能自己去理解、推理圖片里的哪些物體可能完成這一任務,并將其檢測出來。舉個簡單的例子,人類描述 “我想喝一杯冷飲,在哪里可以找到它”,模型看到的是一張廚房的照片,它能夠把 “冰箱” 檢測出來。這一課題要求將多模態模型的圖像理解能力與語言大模型儲藏的豐富知識完美結合、用于細粒度的檢測任務場景中:利用語言模型的大腦來理解人類的抽象指令,精確地定位圖片中人類感興趣的物體,而不需要預設物體類別。

方法介紹

“推理型目標檢測 ” 是一個困難的問題,因為檢測器不僅需要對用戶的粗粒度 / 抽象的指令進行理解和推理,更要分析當前所看到的視覺信息,從而定位出目標物體。在這一方向上,港科大 & 港大的研究人員進行了一些初步的探索。具體而言,他們利用預訓練好的視覺編碼器 (BLIP-2) 來獲取圖片視覺特征,通過一個對齊函數 (alignment function) 將視覺特征對齊到文本空間。利用大規模語言模型 (Robin/Vicuna) 來理解用戶問題,結合看到的視覺信息,對用戶真正感興趣的物體進行推理。然后將物體名稱提供給預訓練好的檢測器 (Grouding-DINO) 進行具體位置的預測。這樣一來,模型可以根據用戶的任何指令分析圖片,精準地預測出用戶感興趣物體的位置。

值得注意的是這里的難點主要在于,針對不同具體任務,模型要能夠實現特定格式(task-specific)的輸出,而盡可能不損害模型原本的能力。為指導語言模型遵循特定的模式,在理解圖像和用戶指令的前提下進行推理和生成符合目標檢測格式的輸出,研究團隊利用 ChatGPT 生成跨模態 instruction data 來微調模型。具體而言,基于 5000 個 coco 圖片,他們利用 ChatGPT 創建了 3w 個跨模態圖像 - 文本微調數據集。為了提高訓練的效率,他們固定住其他模型參數,只學習跨模態線性映射。實驗效果證明,即使只有線性層被微調,語言模型也能夠理解細粒度的圖像特征,并遵循特定的模式來執行基于推理的圖像檢測任務、表現出優異的性能。

這一研究課題具有非常大的潛力。基于這一技術,家庭機器人領域將進一步大放異彩:家庭中的人們可以通過抽象或者粗粒度的語音指令,讓機器人理解、識別、并定位需要的物品,提供相關服務。在工業機器人領域,這種技術更將煥發出無盡的活力:工業機器人可以與人類工作人員更加自然地協作,準確理解他們的指令和需求,實現智能化的決策和操作。在生產線上,人類工作人員可以通過粗粒度的語音指令或文字輸入,讓機器人自動理解、識別并定位需要加工的物品,從而提高生產效率和質量。

基于自帶推理能力的目標檢測模型,我們可以開發出更加智能化、自然化、高效化的機器人,為人類提供更加便捷、高效和人性化的服務。這是一個具有廣闊前景的領域。也值得更多研究者的進行關注和進一步探索。

值得一提的是,DetGPT 支持多種語言模型,目前已經基于 Robin-13B 和 Vicuna-13B 兩個語言模型進行驗證。Robin 系列語言模型是港科大 LMFlow 團隊(https://github.com/OptimalScale/LMFlow)訓練的對話模型,在多項語言能力測評基準上達到了和 Vicuna 相當的效果(模型下載: https://github.com/OptimalScale/LMFlow#model-zoo)。之前機器之心報道過 LMFlow 團隊在消費級顯卡 3090 上只需 5 小時訓練專屬 ChatGPT,今天這一團隊聯合港大 NLP 實驗室又給我們帶來了多模態的驚喜。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-09-26 14:15:47

ChatGPTAI

2024-05-27 07:21:43

2023-04-24 09:28:53

2025-01-02 11:01:45

2023-03-01 13:49:20

模型AI

2023-02-05 13:06:07

ChatGPT看圖方法

2023-09-11 13:12:54

模型數據

2024-12-02 08:30:00

2025-05-26 09:16:00

2025-06-10 03:30:00

2024-11-07 13:19:03

2023-06-06 14:09:32

模型開源

2016-06-27 09:25:29

運維規模效應IT基礎

2024-06-20 14:12:53

2025-06-27 08:40:00

模型推理AI

2024-12-02 13:30:00

2024-09-23 08:20:00

模型訓練

2024-12-16 07:00:00

2024-11-27 14:00:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美在线一二三 | 黄色av免费 | 精品少妇一区二区三区日产乱码 | 狠狠操网站 | 久久国产精品精品 | 99久久婷婷国产综合精品电影 | 欧美国产日韩在线 | 国产在线www | 9久久精品 | 国产高清自拍视频在线观看 | 久久久久久网 | 影音先锋欧美资源 | 久草电影网 | 99re热精品视频国产免费 | 国产免费视频 | 久久久久国产精品www | 日韩有码一区 | 99国产精品一区二区三区 | 日韩欧美国产不卡 | 欧美黑人国产人伦爽爽爽 | 亚洲不卡在线观看 | 国产精品片aa在线观看 | 成人免费视频观看视频 | 国产精品色婷婷久久58 | 国产一级在线观看 | 无码日韩精品一区二区免费 | 国产精品久久久久久久久久三级 | 综合网伊人 | 成人av观看 | 日韩欧美综合 | 国产一区二区三区四区 | 在线播放一区二区三区 | 91久久精品日日躁夜夜躁国产 | 玖玖爱365| 精产国产伦理一二三区 | 亚洲国产欧美日韩 | 久草视频在线播放 | 青青草一区 | 亚洲风情在线观看 | 国产精品资源在线 | 国产精品精品久久久久久 |