成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MiniGPT-4看圖聊天、還能草圖建網站;視頻版Stable Diffusion來了

人工智能 新聞
本周論文包括慕尼黑大學、英偉達等機構的研究者利用潛在擴散模型(latent diffusion model, LDM)實現了高分辨率的長視頻合成;MiniGPT-4 發布,能看圖聊天、還能草圖建網站。

目錄


  1. Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models 
  2. MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models
  3. OpenAssistant Conversations - Democratizing Large Language Model Alignment
  4. Inpaint Anything: Segment Anything Meets Image Inpainting
  5. Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP 
  6. Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks
  7. T2Ranking: A large-scale Chinese Benchmark for Passage Ranking
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)

論文 1:Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

  • 作者:Andreas Blattmann 、 Robin Rombach 等
  • 論文地址:https://arxiv.org/pdf/2304.08818.pdf

摘要:近日慕尼黑大學、英偉達等機構的研究者利用潛在擴散模型(latent diffusion model, LDM)實現了高分辨率的長視頻合成。

在論文中,研究者將視頻模型應用于真實世界問題并生成了高分辨率的長視頻。他們關注兩個相關的視頻生成問題,一是高分辨率真實世界駕駛數據的視頻合成,其在自動駕駛環境中作為模擬引擎具有巨大潛力;二是文本指導視頻生成,用于創意內容生成。

為此,研究者提出了視頻潛在擴散模型(Video LDM),并將 LDM 擴展到了計算密集型任務 —— 高分辨率視頻生成。與以往視頻生成 DM 工作相比,他們僅在圖像上預訓練 Video LDM(或者使用可用的預訓練圖像 LDM),從而允許利用大規模圖像數據集。

接著將時間維度引入潛在空間 DM、并在編碼圖像序列(即視頻)上僅訓練這些時間層的同時固定預訓練空間層,從而將 LDM 圖像生成器轉換為視頻生成器(下圖左)。最后以類似方式微調 LDM 的解碼器以實現像素空間中的時間一致性(下圖右)。

推薦:視頻版 Stable Diffusion:英偉達做到最高 1280×2048、最長 4.7 秒。

論文 2:MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models

  • 作者:朱德堯、陳軍、沈曉倩、李祥、Mohamed H. Elhoseiny
  • 論文地址:https://minigpt-4.github.io/

摘要:來自阿卜杜拉國王科技大學(KAUST)的團隊上手開發了一個 GPT-4 的類似產品 ——MiniGPT-4。MiniGPT-4 展示了許多類似于 GPT-4 的能力,例如生成詳細的圖像描述并從手寫草稿創建網站。此外,作者還觀察到 MiniGPT-4 的其他新興能力,包括根據給定的圖像創作故事和詩歌,提供解決圖像中顯示的問題的解決方案,根據食品照片教用戶如何烹飪等。

 MiniGPT-4 使用一個投影層將一個凍結的視覺編碼器和一個凍結的 LLM(Vicuna)對齊。MiniGPT-4 由一個預訓練的 ViT 和 Q-Former 視覺編碼器、一個單獨的線性投影層和一個先進的 Vicuna 大型語言模型組成。MiniGPT-4 只需要訓練線性層,用來將視覺特征與 Vicuna 對齊。

圖片

示例展示:從草圖創建網站。

圖片

推薦:3 天近一萬 Star,無差體驗 GPT-4 識圖能力,MiniGPT-4 看圖聊天、還能草圖建網站。

論文 3:OpenAssistant Conversations - Democratizing Large Language Model Alignment

  • 作者:Andreas K?pf、Yannic Kilcher 等
  • 論文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

摘要:為了使大規模對齊研究民主化,來自 LAION AI 等機構(Stable diffusion 使用的開源數據就是該機構提供的。)的研究者收集了大量基于文本的輸入和反饋,創建了一個專門訓練語言模型或其他 AI 應用的多樣化和獨特數據集 OpenAssistant Conversations。

該數據集是一個由人工生成、人工注釋的助理式對話語料庫,覆蓋了廣泛的主題和寫作風格,由 161443 條消息組成,分布在 66497 個會話樹中,使用 35 種不同的語言。該語料庫是全球眾包工作的產物,涉及超過 13500 名志愿者。對于任何希望創建 SOTA 指令模型的開發者而言,它都是一個非常寶貴的工具。并且任何人都可以免費訪問整個數據集。

此外,為了證明 OpenAssistant Conversations 數據集的有效性,該研究還提出了一個基于聊天的助手 OpenAssistant,其可以理解任務、與第三方系統交互、動態檢索信息。可以說這是第一個在人類數據上進行訓練的完全開源的大規模指令微調模型。

結果顯示,OpenAssistant 的回復比 GPT-3.5-turbo (ChatGPT) 更受歡迎。

圖片

OpenAssistant Conversations 數據是使用 web-app 界面收集的,包括 5 個步驟:提示、標記提示、將回復消息添加為提示器或助手、標記回復以及對助理回復進行排名。

推薦:ChatGPT 全球最大開源平替。

論文 4:Inpaint Anything: Segment Anything Meets Image Inpainting

  • 作者:Tao Yu、Runseng Feng 等
  • 論文地址:http://arxiv.org/abs/2304.06790

摘要:來自中國科學技術大學和東方理工高等研究院的研究團隊,基于 SAM(Segment Anything Model),提出「修補一切」(Inpaint Anything,簡稱 IA)模型。區別于傳統圖像修補模型,IA 模型無需精細化操作生成掩碼,支持了一鍵點擊標記選定對象,IA 即可實現移除一切物體(Remove Anything)、填補一切內容(Fill Anything)、替換一切場景(Replace Anything),涵蓋了包括目標移除、目標填充、背景替換等在內的多種典型圖像修補應用場景。

IA 擁有三個主要功能:(i) 移除一切(Remove Anything):用戶只需點擊一下想要移除的物體,IA 將無痕地移除該物體,實現高效「魔法消除」;(ii) 填補一切(Fill Anything):同時,用戶還可以進一步通過文本提示(Text Prompt)告訴 IA 想要在物體內填充什么,IA 隨即通過驅動已嵌入的 AIGC(AI-Generated Content)模型(如 Stable Diffusion [2])生成相應的內容填充物體,實現隨心「內容創作」;(iii) 替換一切(Replace Anything):用戶也可以通過點擊選擇需要保留的物體對象,并用文本提示告訴 IA 想要把物體的背景替換成什么,即可將物體背景替換為指定內容,實現生動「環境轉換」。IA 的整體框架如下圖所示:

圖片

推薦:無需精細標記,單擊物體實現物體移除、內容填補、場景替換。

論文 5:Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP

  • 作者:Feng Liang 、 Bichen Wu 等
  • 論文地址:https://arxiv.org/pdf/2210.04150.pdf

摘要:Meta、UTAustin 聯合提出了新的開放語言風格模型(open-vocabulary segmentation, OVSeg),它能讓 Segment Anything 模型知道所要分隔的類別。

從效果上來看,OVSeg 可以與 Segment Anything 結合,完成細粒度的開放語言分割。比如下圖 1 中識別花朵的種類:sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (綠石竹)。

圖片

推薦:Meta/UTAustin 提出全新開放類分割模型。

論文 6:Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks

  • 作者:Haoqi Yuan、Chi Zhang 等
  • 論文地址:https://arxiv.org/abs/2303.16563

摘要:北京大學和北京智源人工智能研究院的團隊提出了在無專家數據的情況下高效解決 Minecraft 多任務的方法 Plan4MC。作者結合強化學習和規劃的方法,將解決復雜任務分解為學習基本技能和技能規劃兩個部分。作者使用內在獎勵的強化學習方法訓練三類細粒度的基本技能。智能體使用大型語言模型構建技能關系圖,通過圖上的搜索得到任務規劃。實驗部分,Plan4MC 目前可以完成 24 個復雜多樣任務,成功率相比所有的基線方法有巨大提升。

圖片

推薦:用 ChatGPT 和強化學習玩轉《我的世界》,Plan4MC 攻克 24 個復雜任務。

論文 7:T2Ranking: A large-scale Chinese Benchmark for Passage Ranking

  • 作者:Xiaohui Xie、Qian Dong 等
  • 論文地址:https://arxiv.org/abs/2304.03679

摘要:段落排序是信息檢索領域中十分重要且具有挑戰性的話題,受到了學術界和工業界的廣泛關注。段落排序模型的有效性能夠提高搜索引擎用戶的滿意度并且對問答系統、閱讀理解等信息檢索相關應用有所助益。在這一背景下,例如 MS-MARCO,DuReader_retrieval 等一些基準數據集被構建用于支持段落排序的相關研究工作。然而常用的數據集大部分都關注英文場景,對于中文場景,已有的數據集在數據規模、細粒度的用戶標注和假負例問題的解決上存在局限性。在這一背景下,該研究基于真實搜索日志,構建了一個全新的中文段落排序基準數據集:T2Ranking。

T2Ranking 由超過 30 萬的真實查詢和 200 萬的互聯網段落構成,并且包含了由專業標注人員提供的 4 級細粒度相關性標注。目前數據和一些 baseline 模型已經公布在 Github,相關研究工作已作為 Resource 論文被 SIGIR 2023 錄用。

推薦:30 萬真實查詢、200 萬互聯網段落,中文段落排序基準數據集發布。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天、梅洪源發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,并提供音頻形式的論文摘要簡介,詳情如下:

本周 10 篇 NLP 精選論文是:

1. Task-oriented Document-Grounded Dialog Systems by HLTPR@RWTH for DSTC9 and DSTC10.  (from Hermann Ney)

2. Exploring the Trade-Offs: Unified Large Language Models vs Local Fine-Tuned Models for Highly-Specific Radiology NLI Task.  (from Wei Liu, Dinggang Shen)

3. On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model, Data, and Training.  (from Tat-Seng Chua)

4. Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to Fine-Tune and Hard to Detect with other LLMs.  (from Rachid Guerraoui)

5. Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models.  (from Kai-Wei Chang, Song-Chun Zhu, Jianfeng Gao)

6. MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised Learning.  (from Meng Wang, Erik Cambria, Guoying Zhao)

7. GeneGPT: Teaching Large Language Models to Use NCBI Web APIs.  (from Zhiyong Lu)

8. A Survey on Biomedical Text Summarization with Pre-trained Language Model.  (from Sophia Ananiadou)

9. Emotion fusion for mental illness detection from social media: A survey.  (from Sophia Ananiadou)

10. Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes.  (from Christopher Ré)

本周 10 篇 CV 精選論文是:

1. NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models.  (from Antonio Torralba)

2. Align-DETR: Improving DETR with Simple IoU-aware BCE loss.  (from Xiangyu Zhang)

3. Exploring Incompatible Knowledge Transfer in Few-shot Image Generation.  (from Shuicheng Yan)

4. Learning Situation Hyper-Graphs for Video Question Answering.  (from Mubarak Shah)

5. Video Generation Beyond a Single Clip.  (from Ming-Hsuan Yang)

6. A Data-Centric Solution to NonHomogeneous Dehazing via Vision Transformer.  (from Huan Liu)

7. Neuromorphic Optical Flow and Real-time Implementation with Event Cameras.  (from Luca Benini, Davide Scaramuzza)

8. Language Guided Local Infiltration for Interactive Image Retrieval.  (from Lei Zhang)

9. LipsFormer: Introducing Lipschitz Continuity to Vision Transformers.  (from Lei Zhang)

10. UVA: Towards Unified Volumetric Avatar for View Synthesis, Pose rendering, Geometry and Texture Editing.  (from Dacheng Tao)

本周 10 篇 ML 精選論文是:

1. Bridging RL Theory and Practice with the Effective Horizon.  (from Stuart Russell)

2. Towards transparent and robust data-driven wind turbine power curve models.  (from Klaus-Robert Müller)

3. Open-World Continual Learning: Unifying Novelty Detection and Continual Learning.  (from Bing Liu)

4. Learning in latent spaces improves the predictive accuracy of deep neural operators.  (from George Em Karniadakis)

5. Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One.  (from Xuelong Li)

6. Generalization and Estimation Error Bounds for Model-based Neural Networks.  (from Yonina C. Eldar)

7. RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment.  (from Tong Zhang)

8. Adaptive Consensus Optimization Method for GANs.  (from Pawan Kumar)

9. Angle based dynamic learning rate for gradient descent.  (from Pawan Kumar)

10. AGNN: Alternating Graph-Regularized Neural Networks to Alleviate Over-Smoothing.  (from Wenzhong Guo)

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-04-21 09:49:36

GPTAI

2020-06-19 17:49:23

建網

2023-08-28 13:36:00

AI模型

2020-06-16 10:57:20

搭建

2023-10-17 12:47:26

AI數據

2019-11-12 16:39:43

黑客網絡安全云計算

2023-11-22 11:22:57

AI模型

2015-05-12 11:42:39

Angular JSExpress JS入門搭建網站

2009-01-18 09:14:00

內網IPNAT

2017-09-06 09:02:34

服務器NAS存儲

2023-09-27 07:39:57

大型語言模型MiniGPT-4

2009-12-02 16:49:46

Visual Stu

2015-06-25 18:54:17

varnish降級系統

2022-10-20 16:04:26

模型質量

2023-06-27 16:51:37

人工智能工具

2023-07-17 10:00:41

開發應用

2023-01-10 16:08:04

人工智能擴散模型

2024-09-14 14:09:40

2023-07-14 13:34:34

StableDiffusion模型

2023-05-26 15:53:48

MidjourneyAI圖像
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩最新网址 | 日韩中文字幕一区二区 | 日韩中文一区 | 成人免费大片黄在线播放 | 老牛影视av一区二区在线观看 | 亚洲午夜精品一区二区三区 | 亚洲毛片在线观看 | 在线观看av网站永久 | 国产一区二区精品在线观看 | 91高清免费观看 | 日本免费小视频 | 天天看夜夜 | 国产精品毛片一区二区在线看 | 岛国毛片 | 亚洲国产成人久久综合一区,久久久国产99 | 日韩在线不卡 | 成人免费一区二区三区牛牛 | 亚洲欧洲精品一区 | 久久免费观看一级毛片 | 日韩一| 亚洲精品麻豆 | 欧美一区二区三区国产精品 | av一二三区 | 国产精品毛片无码 | 日韩在线观看中文字幕 | 日韩欧美中文字幕在线视频 | 国产黄色免费网站 | 亚洲成人中文字幕 | 免费视频中文字幕 | 欧美夜夜| 日韩久久久一区二区 | 亚洲高清一区二区三区 | 精品在线一区 | 91视频在线观看 | 日韩高清国产一区在线 | 精品二区| 欧美精品一区二区在线观看 | 午夜爽爽爽男女免费观看影院 | 伊人狠狠操 | 国产成人精品久久二区二区 | 九九热在线视频观看这里只有精品 |