成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

MLLM QLoRA微調實戰：基于最新的袖珍Mini-InternVL模型原創

51CTO內容精選

發布于 2024-6-30 23:04

瀏覽

0收藏

譯者 | 朱先忠

審校 | 重樓

引言

大型語言模型（LLM）的世界正在不斷發展，新的進步正在迅速出現。一個令人興奮的領域是多模態LLM（MLLMs）的發展，這種模型既能夠理解文本又能夠理解圖像，并與之進行交互。因此，這種多模態模型的出現將為文檔理解、視覺問答等任務打開一個新的可能性的世界。

我最近寫了一篇關于這種模型的文章??《微軟最新的Phi-3視覺語言模型的6種現實應用》??（6 Real-World Uses of Microsoft’s Newest Phi-3 Vision-Language Model）。這篇文章探索了微軟新發布的模型Phi-3-Vision的可能使用場景，這是一種小型但功能強大的MLLM，可以在本地運行（文章中的鏈接提供了相應的代碼示例）。

但在本篇文章中，我們將探索一個強大的組合：InternVL模型和QLoRA微調技術。我們將專注于如何輕松地為任何特定使用場景定制此類模型。我們將使用這些工具創建一個收據信息理解程序，以便以高精度從中提取公司名稱、地址和購買總額等關鍵信息。

了解任務和數據集

該項目旨在開發一個系統，利用InternVL的功能，準確地從掃描的收據中提取特定信息。該任務提出了一個獨特的挑戰，不僅需要強大的自然語言處理（NLP），還需要解釋輸入圖像的視覺布局的能力。這將使我們能夠創建一個單一的、無OCR的端到端管道，從而在復雜文檔中表現出強大的通用性。

為了訓練和評估我們的模型，我們將使用??SROIE??數據集。SROIE提供了1000張掃描的收據圖像，每張圖像都標注了關鍵實體，如：

公司：商店或企業的名稱?
日期：購買日期?
地址：商店的地址?
總計：支付的總金額?

MLLM QLoRA微調實戰：基于最新的袖珍Mini-InternVL模型-AI.x社區

來源：??https://arxiv.org/pdf/2103.10213.pdf??。?

我們將使用模糊相似性得分來評估我們模型的性能，這是一種衡量預測實體和基本事實實體之間相似性的指標。這個指標的數據值范圍是從0（不相關的結果）到100（完美的預測）之間。

InternVL：一個多模式的發電站

InternVL是OpenGVLab的一個多模型LLM家族，旨在擅長圖像和文本任務。它的體系結構將視覺模型（如InternetViT）與語言模型（如InternLM2或Phi-3）相結合。這里，我們將重點介紹Mini-InterneVL-Chat-2B-V1-5變體，這是一個非常適合在消費級GPU上運行的較小版本。

InternVL的主要優勢表現在：

效率：其緊湊的尺寸允許高效的訓練和推理。?
準確性：盡管體積較小，但它在各種基準測試中都具有競爭力。?
多模態功能：它將圖像和文本理解無縫結合。?

演示程序：您可以在鏈接https://huggingface.co/spaces/OpenGVLab/InternVL處探索一下有關InternetVL的實時演示情況。

QLoRA微調：一種內存高效的方法

為了進一步提高我們模型的性能，我們將使用QLoRA，這是一種微調技術，可以在保持性能的同時顯著減少內存消耗。以下是它的工作原理：

量化：預訓練的LLM被量化為4位精度，減少了其內存占用。?
低級別適配器（LoRA）：LoRA不修改預訓練模型的所有參數，而是向網絡添加小型可訓練適配器。這些適配器能夠捕獲特定任務的信息，而無需更改主模型。?
高效訓練：量化和LoRA的結合即使在內存有限的GPU上也能實現高效的微調。?

代碼演練：基線性能

讓我們深入研究一下相關的代碼實現吧。首先，我們將在沒有任何微調的情況下評估一下Mini-InterVL-Chat-2B-V1-5的基線性能：

quant_config = BitsAndBytesConfig(
 load_in_4bit=True,
 bnb_4bit_quant_type="nf4",
 bnb_4bit_compute_dtype=torch.bfloat16,
)

model = InternVLChatModel.from_pretrained(
 args.path,
 device_map={"": 0},
 quantization_cnotallow=quant_config if args.quant else None,
 torch_dtype=torch.bfloat16,
)

tokenizer = InternLM2Tokenizer.from_pretrained(args.path)
# 在max_num參數中設置圖片小塊的最大數量

model.eval()

pixel_values = (
 load_image(image_base_path / "X51005255805.jpg", max_num=6)
 .to(torch.bfloat16)
 .cuda()
)

generation_config = dict(
 num_beams=1,
 max_new_tokens=512,
 do_sample=False,
)

# 單輪單圖像對話
question = (
 "Extract the company, date, address and total in json format."
 "Respond with a valid JSON only."
)
# print(model)
response = model.chat(tokenizer, pixel_values, question, generation_config)

print(response)
上述代碼的輸出結果是：
```json
{
 "company": "SAM SAM TRADING CO",
 "date": "Fri, 29-12-2017",
 "address": "67, JLN MENHAW 25/63 TNN SRI HUDA, 40400 SHAH ALAM",
 "total": "RM 14.10"
}
```

上面的代碼實現了：

從Hugging Face云端加載模型。?
加載樣本收據圖像并將其轉換為張量。?
提出一個問題，要求模型從圖像中提取相關信息。?
運行模型，并以JSON格式輸出提取的信息。?

這項零樣本評估顯示了令人印象深刻的結果，實現了74.24% 的平均模糊相似性得分。這證明了InternVL在無需微調的情況下理解收據和提取信息的能力。

微調：使用QLoRA增強性能

為了進一步提高準確性，我們將使用QLoRA對模型進行微調。以下展示了我們使用這種微調技術的實現代碼：

_data = load_data(args.data_path, fold="train")

# 量化配置
quant_config = BitsAndBytesConfig(
 load_in_4bit=True,
 bnb_4bit_quant_type="nf4",
 bnb_4bit_compute_dtype=torch.bfloat16,
)

model = InternVLChatModel.from_pretrained(
 path,
 device_map={"": 0},
 quantization_cnotallow=quant_config,
 torch_dtype=torch.bfloat16,
)

tokenizer = InternLM2Tokenizer.from_pretrained(path)

# 在max_num參數中設置圖片小塊的最大數量
img_context_token_id = tokenizer.convert_tokens_to_ids(IMG_CONTEXT_TOKEN)
print("img_context_token_id", img_context_token_id)
model.img_context_token_id = img_context_token_id

model.config.llm_config.use_cache = False

model = wrap_lora(model, r=128, lora_alpha=256)

training_data = SFTDataset(
 data=_data, template=model.config.template, tokenizer=tokenizer
)

collator = CustomDataCollator(pad_token=tokenizer.pad_token_id, ignore_index=-100)

img_context_token_id = tokenizer.convert_tokens_to_ids(IMG_CONTEXT_TOKEN)
print("img_context_token_id", img_context_token_id)
model.img_context_token_id = img_context_token_id
print("model.img_context_token_id", model.img_context_token_id)

train_params = TrainingArguments(
 output_dir=str(BASE_PATH / "results_modified"),
 num_train_epochs=EPOCHS,
 per_device_train_batch_size=1,
 gradient_accumulation_steps=16,
 optim="paged_adamw_32bit",
 save_steps=len(training_data) // 10,
 logging_steps=len(training_data) // 50,
 learning_rate=5e-4,
 lr_scheduler_type="cosine",
 warmup_steps=100,
 weight_decay=0.001,
 max_steps=-1,
 group_by_length=False,
 max_grad_norm=1.0,
)
# 訓練器
fine_tuning = SFTTrainer(
 model=model,
 train_dataset=training_data,
 dataset_text_field="###",
 tokenizer=tokenizer,
 args=train_params,
 data_collator=collator,
 max_seq_length=tokenizer.model_max_length,
)

print(fine_tuning.model.print_trainable_parameters())
# 開始訓練
fine_tuning.train()
# 保存模型
fine_tuning.model.save_pretrained(refined_model)

上面的代碼實現了：

加載啟用量化支持的模型。?
用LoRA微調模型，添加可訓練的適配器。?
從SROIE數據集創建數據集。?
定義訓練參數，如學習率、批量大小和訓練輪數。?
初始化訓練器以處理訓練過程。?
在SROIE數據集上訓練模型。?
保存微調后的模型。?

以下是基本模型和QLoRA微調模型之間的示例比較：

Ground Truth: 

{
 "company": "YONG TAT HARDWARE TRADING",
 "date": "13/03/2018",
 "address": "NO 4,JALAN PERJIRANAN 10, TAMAN AIR BIRU, 81700 PASIR GUDANG, JOHOR.",
 "total": "72.00"
}

Prediction Base: KO

```json
{
 "company": "YONG TAT HARDWARE TRADING",
 "date": "13/03/2016",
 "address": "JM092487-D",
 "total": "67.92"
}
```

Prediction QLoRA: OK

{
 "company": "YONG TAT HARDWARE TRADING",
 "date": "13/03/2018",
 "address": "NO 4, JALAN PERUBANAN 10, TAMAN AIR BIRU, 81700 PASIR GUDANG, JOHOR",
 "total": "72.00"
}

實驗結果

在使用QLoRA進行微調后，我們的模型獲得了95.4% 的顯著模糊相似性得分，比基線性能（74.24%）有了顯著提高。這證明了QLoRA在不需要大量計算資源的情況下提高模型精度的能力（在RTX 3080 GPU上對600個樣本進行15分鐘的訓練）。

我們使用InternVL和QLoRA成功構建了一個強大的收據數據理解程序。這種方法展示了多模式LLM在文檔分析和信息提取等現實任務中的潛力。在這個示例用例中，我們使用幾百個樣本和消費者級別的GPU上幾分鐘的計算時間，在預測質量上獲得了30分。

注意：您可以在鏈接https://github.com/CVxTz/doc-llm處找到該項目的完整代碼實現。

結語

當今，多模式LLM的發展才剛剛開始，未來充滿了令人興奮的可能性。自動化文檔處理領域在MLLM（多模態大型語言模型）時代具有巨大的潛力。這些模型可以徹底改變我們從合同、發票和其他文檔中提取信息的方式，只需要最少的訓練數據。通過整合文本和視覺，他們可以以前所未有的精度分析復雜文檔的布局，為更高效、更智能的信息管理鋪平道路。

人工智能的未來是多模式的，InternVL和QLoRA是幫助我們在小型的計算預算上釋放其潛力的強大工具。

參考鏈接

本文源碼：??https://github.com/CVxTz/doc-llm???
數據集來源：https://rrc.cvc.uab.es/?ch=13&com=introduction?
數據集許可證：根據??Creative Commons Attribution 4.0國際許可證??得到許可。

譯者介紹

朱先忠，51CTO社區編輯，51CTO專家博客、講師，濰坊一所高校計算機教師，自由編程界老兵一枚。

原文標題：A Simple Recipe to Boost the Performance of MLLMs on Your Custom Use Case，作者：Youness Mansar?

鏈接：https://towardsdatascience.com/a-simple-recipe-to-boost-the-performance-of-mllms-on-your-custom-use-case-6014440f5373

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

大型語言模型

贊

收藏

回復

舉報

回復

相關推薦

首個基于Mamba的MLLM來了！模型權重、訓練代碼等已全部開源

輕薄滴假象 ? 3655瀏覽 ? 0回復
讓大模型不再「巨無霸」，這是一份最新的大模型參數高效微調綜述

輕薄滴假象 ? 2702瀏覽 ? 0回復
基于LangChain自查詢檢索器的RAG系統開發實戰

51CTO內容精選 ? 4919瀏覽 ? 0回復
多模態大型語言模型（MLLM）綜述

AIRoobt ? 5888瀏覽 ? 0回復
簡化大模型微調門檻：運用Ludwig低代碼框架的平臺技術實戰

AIGC觀察者 ? 3426瀏覽 ? 0回復
基于Llama 3的AI代理開發實戰演練

51CTO內容精選 ? 3037瀏覽 ? 0回復
基于Prefect、Weave和RAGAS的RAG應用開發實戰

51CTO內容精選 ? 2672瀏覽 ? 0回復
基于GPT-4o-mini，使用LangChain打造AI搜索智能體

小虎哦哦 ? 4004瀏覽 ? 0回復
大模型微調：Hugging Face Transformers全流程實戰

51CTO內容精選 ? 7083瀏覽 ? 0回復
基于網格環境的模仿學習技術實戰探索

51CTO內容精選 ? 3030瀏覽 ? 0回復
微調谷歌開源Gemini Flash模型實現PII脫敏實戰

51CTO內容精選 ? 3075瀏覽 ? 0回復
大模型微調方法之QLoRA

shizhi02 ? 2709瀏覽 ? 0回復
基于知識圖譜的LangChain應用實戰

ermulong ? 3142瀏覽 ? 0回復
基于自定義數據集的YOLOv8模型實戰

51CTO內容精選 ? 3883瀏覽 ? 0回復
基于 LlamaFactory 微調大模型的實體識別的評估實現

AI悠閑區 ? 2595瀏覽 ? 0回復
GoRA: 基于梯度驅動的自適應低秩微調方法

頓數AI ? 2502瀏覽 ? 0回復
基于 DeepSeek GRPO 的 1.5B Rust 代碼生成模型訓練實戰

Baihai_IDP ? 1399瀏覽 ? 0回復
從零開始微調Embedding模型：基于BERT的實戰教程

AI悠閑區 ? 1936瀏覽 ? 0回復
大型語言模型微調全攻略：從理論到實戰的終極指南

51CTO內容精選 ? 994瀏覽 ? 0回復

51CTO內容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：生成式AI多代理系統：技術團隊的秘密武器

下一篇：使用本地部署的Hermes 2 Pro 構建開放的LLM應用程序

社區精華內容

目錄

主站蜘蛛池模板： 99精品国产一区二区三区 | 国产精品小视频在线观看 | www..99re| 天天综合网天天综合 | 天天爽夜夜爽精品视频婷婷 | 国产精品久久久久一区二区三区 | 热久久久 | 日韩三区| 精品九九九 | 国产精品亚洲综合 | 日日精品 | 二区视频 | 久久久久久99 | 免费午夜视频 | 成人美女免费网站视频 | 国产在线一区二区 | 亚洲国产精品久久久久 | 中文字幕一区二区三区乱码图片 | 一区二区三区视频 | av一二三区 | 密室大逃脱第六季大神版在线观看 | 91中文视频 | 五月综合久久 | 日韩a v在线免费观看 | 国产日韩欧美在线播放 | 亚洲三级免费看 | 国产精品久久久久久久免费大片 | 国产日韩精品一区 | 欧美精品99| 日韩中文字幕 | 黄视频网站免费观看 | 亚洲欧洲小视频 | 欧美极品一区二区 | 99视频在线免费观看 | 天天操夜夜操 | 亚洲不卡在线观看 | 精品综合久久 | 一区二区三区在线观看视频 | 久久99精品久久久 | 影音先锋成人资源 | 欧美日韩1区|