MiniGPT-4看圖聊天、還能草圖建網站;視頻版Stable Diffusion來了
目錄
- Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
- MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models
- OpenAssistant Conversations - Democratizing Large Language Model Alignment
- Inpaint Anything: Segment Anything Meets Image Inpainting
- Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
- Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks
- T2Ranking: A large-scale Chinese Benchmark for Passage Ranking
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
- 作者:Andreas Blattmann 、 Robin Rombach 等
- 論文地址:https://arxiv.org/pdf/2304.08818.pdf
摘要:近日慕尼黑大學、英偉達等機構的研究者利用潛在擴散模型(latent diffusion model, LDM)實現了高分辨率的長視頻合成。
在論文中,研究者將視頻模型應用于真實世界問題并生成了高分辨率的長視頻。他們關注兩個相關的視頻生成問題,一是高分辨率真實世界駕駛數據的視頻合成,其在自動駕駛環境中作為模擬引擎具有巨大潛力;二是文本指導視頻生成,用于創意內容生成。
為此,研究者提出了視頻潛在擴散模型(Video LDM),并將 LDM 擴展到了計算密集型任務 —— 高分辨率視頻生成。與以往視頻生成 DM 工作相比,他們僅在圖像上預訓練 Video LDM(或者使用可用的預訓練圖像 LDM),從而允許利用大規模圖像數據集。
接著將時間維度引入潛在空間 DM、并在編碼圖像序列(即視頻)上僅訓練這些時間層的同時固定預訓練空間層,從而將 LDM 圖像生成器轉換為視頻生成器(下圖左)。最后以類似方式微調 LDM 的解碼器以實現像素空間中的時間一致性(下圖右)。
推薦:視頻版 Stable Diffusion:英偉達做到最高 1280×2048、最長 4.7 秒。
論文 2:MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models
- 作者:朱德堯、陳軍、沈曉倩、李祥、Mohamed H. Elhoseiny
- 論文地址:https://minigpt-4.github.io/
摘要:來自阿卜杜拉國王科技大學(KAUST)的團隊上手開發了一個 GPT-4 的類似產品 ——MiniGPT-4。MiniGPT-4 展示了許多類似于 GPT-4 的能力,例如生成詳細的圖像描述并從手寫草稿創建網站。此外,作者還觀察到 MiniGPT-4 的其他新興能力,包括根據給定的圖像創作故事和詩歌,提供解決圖像中顯示的問題的解決方案,根據食品照片教用戶如何烹飪等。
MiniGPT-4 使用一個投影層將一個凍結的視覺編碼器和一個凍結的 LLM(Vicuna)對齊。MiniGPT-4 由一個預訓練的 ViT 和 Q-Former 視覺編碼器、一個單獨的線性投影層和一個先進的 Vicuna 大型語言模型組成。MiniGPT-4 只需要訓練線性層,用來將視覺特征與 Vicuna 對齊。
示例展示:從草圖創建網站。
推薦:3 天近一萬 Star,無差體驗 GPT-4 識圖能力,MiniGPT-4 看圖聊天、還能草圖建網站。
論文 3:OpenAssistant Conversations - Democratizing Large Language Model Alignment
- 作者:Andreas K?pf、Yannic Kilcher 等
- 論文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view
摘要:為了使大規模對齊研究民主化,來自 LAION AI 等機構(Stable diffusion 使用的開源數據就是該機構提供的。)的研究者收集了大量基于文本的輸入和反饋,創建了一個專門訓練語言模型或其他 AI 應用的多樣化和獨特數據集 OpenAssistant Conversations。
該數據集是一個由人工生成、人工注釋的助理式對話語料庫,覆蓋了廣泛的主題和寫作風格,由 161443 條消息組成,分布在 66497 個會話樹中,使用 35 種不同的語言。該語料庫是全球眾包工作的產物,涉及超過 13500 名志愿者。對于任何希望創建 SOTA 指令模型的開發者而言,它都是一個非常寶貴的工具。并且任何人都可以免費訪問整個數據集。
此外,為了證明 OpenAssistant Conversations 數據集的有效性,該研究還提出了一個基于聊天的助手 OpenAssistant,其可以理解任務、與第三方系統交互、動態檢索信息。可以說這是第一個在人類數據上進行訓練的完全開源的大規模指令微調模型。
結果顯示,OpenAssistant 的回復比 GPT-3.5-turbo (ChatGPT) 更受歡迎。
OpenAssistant Conversations 數據是使用 web-app 界面收集的,包括 5 個步驟:提示、標記提示、將回復消息添加為提示器或助手、標記回復以及對助理回復進行排名。
推薦:ChatGPT 全球最大開源平替。
論文 4:Inpaint Anything: Segment Anything Meets Image Inpainting
- 作者:Tao Yu、Runseng Feng 等
- 論文地址:http://arxiv.org/abs/2304.06790
摘要:來自中國科學技術大學和東方理工高等研究院的研究團隊,基于 SAM(Segment Anything Model),提出「修補一切」(Inpaint Anything,簡稱 IA)模型。區別于傳統圖像修補模型,IA 模型無需精細化操作生成掩碼,支持了一鍵點擊標記選定對象,IA 即可實現移除一切物體(Remove Anything)、填補一切內容(Fill Anything)、替換一切場景(Replace Anything),涵蓋了包括目標移除、目標填充、背景替換等在內的多種典型圖像修補應用場景。
IA 擁有三個主要功能:(i) 移除一切(Remove Anything):用戶只需點擊一下想要移除的物體,IA 將無痕地移除該物體,實現高效「魔法消除」;(ii) 填補一切(Fill Anything):同時,用戶還可以進一步通過文本提示(Text Prompt)告訴 IA 想要在物體內填充什么,IA 隨即通過驅動已嵌入的 AIGC(AI-Generated Content)模型(如 Stable Diffusion [2])生成相應的內容填充物體,實現隨心「內容創作」;(iii) 替換一切(Replace Anything):用戶也可以通過點擊選擇需要保留的物體對象,并用文本提示告訴 IA 想要把物體的背景替換成什么,即可將物體背景替換為指定內容,實現生動「環境轉換」。IA 的整體框架如下圖所示:
推薦:無需精細標記,單擊物體實現物體移除、內容填補、場景替換。
論文 5:Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
- 作者:Feng Liang 、 Bichen Wu 等
- 論文地址:https://arxiv.org/pdf/2210.04150.pdf
摘要:Meta、UTAustin 聯合提出了新的開放語言風格模型(open-vocabulary segmentation, OVSeg),它能讓 Segment Anything 模型知道所要分隔的類別。
從效果上來看,OVSeg 可以與 Segment Anything 結合,完成細粒度的開放語言分割。比如下圖 1 中識別花朵的種類:sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (綠石竹)。
推薦:Meta/UTAustin 提出全新開放類分割模型。
論文 6:Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks
- 作者:Haoqi Yuan、Chi Zhang 等
- 論文地址:https://arxiv.org/abs/2303.16563
摘要:北京大學和北京智源人工智能研究院的團隊提出了在無專家數據的情況下高效解決 Minecraft 多任務的方法 Plan4MC。作者結合強化學習和規劃的方法,將解決復雜任務分解為學習基本技能和技能規劃兩個部分。作者使用內在獎勵的強化學習方法訓練三類細粒度的基本技能。智能體使用大型語言模型構建技能關系圖,通過圖上的搜索得到任務規劃。實驗部分,Plan4MC 目前可以完成 24 個復雜多樣任務,成功率相比所有的基線方法有巨大提升。
推薦:用 ChatGPT 和強化學習玩轉《我的世界》,Plan4MC 攻克 24 個復雜任務。
論文 7:T2Ranking: A large-scale Chinese Benchmark for Passage Ranking
- 作者:Xiaohui Xie、Qian Dong 等
- 論文地址:https://arxiv.org/abs/2304.03679
摘要:段落排序是信息檢索領域中十分重要且具有挑戰性的話題,受到了學術界和工業界的廣泛關注。段落排序模型的有效性能夠提高搜索引擎用戶的滿意度并且對問答系統、閱讀理解等信息檢索相關應用有所助益。在這一背景下,例如 MS-MARCO,DuReader_retrieval 等一些基準數據集被構建用于支持段落排序的相關研究工作。然而常用的數據集大部分都關注英文場景,對于中文場景,已有的數據集在數據規模、細粒度的用戶標注和假負例問題的解決上存在局限性。在這一背景下,該研究基于真實搜索日志,構建了一個全新的中文段落排序基準數據集:T2Ranking。
T2Ranking 由超過 30 萬的真實查詢和 200 萬的互聯網段落構成,并且包含了由專業標注人員提供的 4 級細粒度相關性標注。目前數據和一些 baseline 模型已經公布在 Github,相關研究工作已作為 Resource 論文被 SIGIR 2023 錄用。
推薦:30 萬真實查詢、200 萬互聯網段落,中文段落排序基準數據集發布。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天、梅洪源發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,并提供音頻形式的論文摘要簡介,詳情如下:
本周 10 篇 NLP 精選論文是:
1. Task-oriented Document-Grounded Dialog Systems by HLTPR@RWTH for DSTC9 and DSTC10. (from Hermann Ney)
2. Exploring the Trade-Offs: Unified Large Language Models vs Local Fine-Tuned Models for Highly-Specific Radiology NLI Task. (from Wei Liu, Dinggang Shen)
3. On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model, Data, and Training. (from Tat-Seng Chua)
4. Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to Fine-Tune and Hard to Detect with other LLMs. (from Rachid Guerraoui)
5. Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models. (from Kai-Wei Chang, Song-Chun Zhu, Jianfeng Gao)
6. MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised Learning. (from Meng Wang, Erik Cambria, Guoying Zhao)
7. GeneGPT: Teaching Large Language Models to Use NCBI Web APIs. (from Zhiyong Lu)
8. A Survey on Biomedical Text Summarization with Pre-trained Language Model. (from Sophia Ananiadou)
9. Emotion fusion for mental illness detection from social media: A survey. (from Sophia Ananiadou)
10. Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes. (from Christopher Ré)
本周 10 篇 CV 精選論文是:
1. NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models. (from Antonio Torralba)
2. Align-DETR: Improving DETR with Simple IoU-aware BCE loss. (from Xiangyu Zhang)
3. Exploring Incompatible Knowledge Transfer in Few-shot Image Generation. (from Shuicheng Yan)
4. Learning Situation Hyper-Graphs for Video Question Answering. (from Mubarak Shah)
5. Video Generation Beyond a Single Clip. (from Ming-Hsuan Yang)
6. A Data-Centric Solution to NonHomogeneous Dehazing via Vision Transformer. (from Huan Liu)
7. Neuromorphic Optical Flow and Real-time Implementation with Event Cameras. (from Luca Benini, Davide Scaramuzza)
8. Language Guided Local Infiltration for Interactive Image Retrieval. (from Lei Zhang)
9. LipsFormer: Introducing Lipschitz Continuity to Vision Transformers. (from Lei Zhang)
10. UVA: Towards Unified Volumetric Avatar for View Synthesis, Pose rendering, Geometry and Texture Editing. (from Dacheng Tao)
本周 10 篇 ML 精選論文是:
1. Bridging RL Theory and Practice with the Effective Horizon. (from Stuart Russell)
2. Towards transparent and robust data-driven wind turbine power curve models. (from Klaus-Robert Müller)
3. Open-World Continual Learning: Unifying Novelty Detection and Continual Learning. (from Bing Liu)
4. Learning in latent spaces improves the predictive accuracy of deep neural operators. (from George Em Karniadakis)
5. Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One. (from Xuelong Li)
6. Generalization and Estimation Error Bounds for Model-based Neural Networks. (from Yonina C. Eldar)
7. RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment. (from Tong Zhang)
8. Adaptive Consensus Optimization Method for GANs. (from Pawan Kumar)
9. Angle based dynamic learning rate for gradient descent. (from Pawan Kumar)
10. AGNN: Alternating Graph-Regularized Neural Networks to Alleviate Over-Smoothing. (from Wenzhong Guo)