成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視覺語言指令微調(diào)數(shù)據(jù)如何構(gòu)建?

人工智能
由于大型語言模型本身可能存在錯誤以及生成數(shù)據(jù)分布的不可控性,對大型語言模型直接輸出的視覺語言指令微調(diào)數(shù)據(jù)進(jìn)行質(zhì)量控制至關(guān)重要。

1、構(gòu)建策略

視覺語言指令微調(diào)數(shù)據(jù)構(gòu)建策略主要有以下兩種:

圖片

標(biāo)注適配

由于視覺模型的發(fā)展,已有規(guī)模巨大、多樣性且高質(zhì)量的標(biāo)注數(shù)據(jù)。這些數(shù)據(jù)適合于廣泛的下游任務(wù),并可容易地改造為指令數(shù)據(jù)。許多工作將已有的標(biāo)注數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)的指令數(shù)據(jù)格式。

指令部分(Instruction)主要用于解釋任務(wù)的本質(zhì),典型的構(gòu)建方法是手寫,然后作為候選指令池。有些研究使用手寫指令作為種子,以引導(dǎo)LLM進(jìn)行重寫或擴(kuò)展指令池,以增強(qiáng)指令的多樣性。

輸入(Input)由圖像和可選的上下文組成,主要從原始的標(biāo)注數(shù)據(jù)中獲取,以形成指令數(shù)據(jù)的完整部分。

響應(yīng)(Response)對應(yīng)于已標(biāo)注數(shù)據(jù)中的結(jié)果,表示指令數(shù)據(jù)的輸出部分。

如果原始標(biāo)注數(shù)據(jù)滿足用戶的需求,不需要多少改動就可以直接轉(zhuǎn)化。但是,對于特定下游任務(wù)如分類、判斷或簡要Caption,典型的只會生成幾個單詞或簡單句子,此時原始的答案需要基于輸入信息利用LLM進(jìn)行擴(kuò)展,以避免可能得過擬合或其他相關(guān)問題。值得注意的是,有些工作將這樣精簡的響應(yīng)作為正式的指令,因此在指令中選擇融合合適的有限語言解決這類問題。

自我指導(dǎo)Self-Instruct

指令的規(guī)模、多樣性和創(chuàng)造性往往受到現(xiàn)有任務(wù)和相應(yīng)標(biāo)注數(shù)據(jù)的限制,阻礙了使用這些數(shù)據(jù)進(jìn)行調(diào)整的多模態(tài)大型語言模型的通用性。標(biāo)準(zhǔn)指令格式在適應(yīng)不斷變化的現(xiàn)實(shí)世界應(yīng)用場景和滿足用戶需求方面面臨挑戰(zhàn)。因此,為了獲得與現(xiàn)實(shí)世界情況更相關(guān)的額外指令數(shù)據(jù),自我指導(dǎo)開始整合更廣泛的標(biāo)注數(shù)據(jù)。這種方法將促使大型語言模型生成更多樣化和內(nèi)容豐富的遵循指令數(shù)據(jù)。

具體來說,這種方法利用大型語言模型強(qiáng)大的理解和生成能力。如圖所示,它們根據(jù)模板、大型語言模型等將標(biāo)注信息(如標(biāo)題、邊界框、標(biāo)簽等)組織成關(guān)于圖像的詳細(xì)描述,然后引導(dǎo)僅語言的大型語言模型生成問答對或直接進(jìn)入多輪對話。其中,為了正確引導(dǎo)大型語言模型,這些方法會手動定制詳細(xì)的系統(tǒng)提示和一些示例,并通過上下文學(xué)習(xí)進(jìn)一步提高生成內(nèi)容的質(zhì)量。自我指導(dǎo)消除了對數(shù)據(jù)的嚴(yán)格限制,允許在指令和響應(yīng)中都增加多樣性和復(fù)雜性。

數(shù)據(jù)混合

當(dāng)然,為了在確保指令數(shù)據(jù)具有良好多樣性等屬性的同時擴(kuò)大指令數(shù)據(jù)的規(guī)模,許多方法同時使用上述兩種方法并構(gòu)建大規(guī)模的指令數(shù)據(jù)。最近,一些多模態(tài)大型語言模型甚至將來自不同來源的多組指令數(shù)據(jù)進(jìn)行合并,以進(jìn)一步提高多模態(tài)大型語言模型的性能。

2、構(gòu)建原則

原則 1. 正確性:每個視覺語言指令微調(diào)(VLIT)數(shù)據(jù)(即指令-響應(yīng)對)中的視覺信息和文本內(nèi)容必須完全匹配,確保生成內(nèi)容中對視覺信息或外部知識的描述沒有不準(zhǔn)確之處

原則 2. 任務(wù)多樣性:視覺語言指令微調(diào)數(shù)據(jù)應(yīng)包含足夠多樣的任務(wù),包括文本任務(wù)和視覺任務(wù)

原則 3. 指令多樣性:在視覺語言指令微調(diào)數(shù)據(jù)中,每個任務(wù)必須包含足夠多樣的不同指令句子

原則 4. 響應(yīng)多樣性:在視覺語言指令微調(diào)數(shù)據(jù)中,每個任務(wù)的響應(yīng)文本需要保持足夠的可區(qū)分性

原則 5. 指令復(fù)雜性:在視覺語言指令微調(diào)數(shù)據(jù)中,必須確保一些指令文本需要足夠復(fù)雜的邏輯才能完成。

原則 6. 對象/粒度復(fù)雜性:在視覺語言指令微調(diào)數(shù)據(jù)中,指令對象操作的粒度必須表現(xiàn)出足夠的復(fù)雜性。在多模態(tài)場景具備適當(dāng)復(fù)雜度的高質(zhì)量VLIT數(shù)據(jù)可進(jìn)一步引導(dǎo)MLLM在不同粒度上聯(lián)合理解視覺和文本語義。

原則 7. 在視覺語言指令微調(diào)數(shù)據(jù)中,任務(wù)分布需要均勻,不存在明顯的長尾現(xiàn)象。不均衡的數(shù)據(jù)設(shè)置可能導(dǎo)致大型模型中的遺忘現(xiàn)象,嚴(yán)重阻礙其整體性能。

3、構(gòu)建流程

圖片

數(shù)據(jù)收集

在收集數(shù)據(jù)時,必須全面考慮標(biāo)注數(shù)據(jù)的類型、來源、規(guī)模和質(zhì)量等因素。這可以確保收集的信息生成符合正確性、多樣性和復(fù)雜性要求的視覺語言指令微調(diào)數(shù)據(jù)。具體而言,經(jīng)過人工審查且廣泛使用的標(biāo)注數(shù)據(jù)可信度更高,不會因標(biāo)注不準(zhǔn)確而導(dǎo)致后續(xù)錯誤。同時,不同類型的標(biāo)注數(shù)據(jù)通常可以擴(kuò)展來定義各種任務(wù),顯著增強(qiáng)最終視覺語言指令微調(diào)數(shù)據(jù)的多樣性。當(dāng)來自同一來源的多模態(tài)數(shù)據(jù)包含不同類型的標(biāo)注時,甚至可以在原始簡單視覺任務(wù)之上生成更復(fù)雜的上下文和新的任務(wù)類型,確保復(fù)雜性。

指令響應(yīng)生成

當(dāng)提供一幅圖像和相應(yīng)的各種類型的標(biāo)注數(shù)據(jù)時,需要為每種類型的標(biāo)注數(shù)據(jù)設(shè)計合適的模板,以確保插入的標(biāo)注數(shù)據(jù)符合標(biāo)準(zhǔn)語言表示。通過結(jié)合所有標(biāo)注數(shù)據(jù)源,可以獲得對圖像的詳細(xì)且準(zhǔn)確的描述,這對僅使用語言的大型語言模型來說是一個可理解的視覺線索。為確保生成內(nèi)容的多樣性和復(fù)雜性,有必要編寫足夠詳細(xì)的提示來引導(dǎo)大型語言模型,并手動編寫足夠數(shù)量的示例指令-響應(yīng)對。

在系統(tǒng)提示設(shè)計中,遵循正確性、多樣性、復(fù)雜性原則,并通過靈活使用具有不同附加約束(例如,擴(kuò)展知識、負(fù)面樣本、多輪對話等)的系統(tǒng)提示來引導(dǎo)生成器生成更多樣化和復(fù)雜的指令-響應(yīng)對。同時,設(shè)計的上下文示例足夠充分,符合全面性和隨機(jī)性的特點(diǎn),與所涉及的邊界相對應(yīng),并提供所有可能場景的適當(dāng)示例,以便生成器能正確理解提示的含義。此外,為了在生成過程中確保足夠的多樣性,還冗余設(shè)置了系統(tǒng)提示和上下文示例的關(guān)鍵點(diǎn),即多次重復(fù)某些關(guān)鍵點(diǎn)(如不生成不確定內(nèi)容、避免模糊回答等)。

質(zhì)量控制

由于大型語言模型本身可能存在錯誤以及生成數(shù)據(jù)分布的不可控性,對大型語言模型直接輸出的視覺語言指令微調(diào)數(shù)據(jù)進(jìn)行質(zhì)量控制至關(guān)重要。

正確性:對于準(zhǔn)確性評估,引入多語言大型語言模型和手動編寫的指導(dǎo)示例,對給定的視覺語言指令微調(diào)數(shù)據(jù)進(jìn)行多次準(zhǔn)確性評估,取最高頻率作為最終準(zhǔn)確性得分。

多樣性:使用基于圖的方法來計算指令多樣性,即,在去除停用詞后,將具有相同任務(wù)標(biāo)簽的指令文本基于共現(xiàn)關(guān)系轉(zhuǎn)換為元素圖,并使用重疊社區(qū)劃分方法(即自我分裂)來計算簇的數(shù)量以評估指令多樣性。

復(fù)雜度:首先使用經(jīng)典的語義依存分析來計算指令中的元素數(shù)量,然后利用 LLaMA-2 作為判別模型,在給定樣本的指導(dǎo)下提供定量的難度評分。

平衡度:利用獲得的任務(wù)標(biāo)簽來計算不同任務(wù)的樣本大小方差,作為平衡指標(biāo)。同時,通過從各種任務(wù)標(biāo)簽中隨機(jī)且均勻地抽樣,可以獲得具有類別平衡的視覺語言指令微調(diào)數(shù)據(jù)。

責(zé)任編輯:龐桂玉 來源: 小白學(xué)AI算法
相關(guān)推薦

2025-03-25 10:27:14

SFT 指令微調(diào)

2024-11-19 13:17:38

視覺語言模型Pytorch人工智能

2024-02-05 09:00:00

2023-04-28 15:27:06

微軟模型

2023-10-07 10:41:54

語言模型微調(diào)BitFit

2023-12-18 13:37:44

天翼云天池大語言模型

2023-04-19 08:00:00

人工智能視覺語言模型

2023-06-09 08:00:00

QLoRa語言模型微調(diào)

2025-04-10 07:59:51

2025-02-14 08:18:33

2020-12-15 11:23:09

數(shù)據(jù)驅(qū)動企業(yè)數(shù)字化

2024-03-29 09:00:00

大型語言模型ChatGPT

2025-01-26 17:00:46

2024-12-23 07:15:00

多模態(tài)大模型MLLM人工智能

2025-05-08 05:00:00

2024-08-16 11:49:56

2024-04-15 12:50:00

大型語言模型ReFT

2024-12-11 13:50:00

AI圖像生成

2023-05-03 20:55:29

2023-08-21 11:29:50

智能數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 一级做a爰片性色毛片视频停止 | 久久com | 激情亚洲 | 欧美一区二区三区在线看 | 国产精品视频久久久 | 狠狠操婷婷 | 国产精品综合色区在线观看 | 亚洲国产欧美在线 | 亚洲一区二区免费电影 | av成年人网站 | 黄色免费在线观看网站 | 九九久久在线看 | 国产男女猛烈无遮掩视频免费网站 | 国产大片一区 | 国产精品美女一区二区三区 | 亚洲免费视频播放 | 天堂色网| 麻豆一区二区三区 | 九九热国产视频 | 色网站在线免费观看 | 欧美free性| 久久久久久久久久久久91 | 欧美一区二区三区四区视频 | 美女黄网站视频免费 | 日本一区二区视频 | 国产视频一二三区 | 99re超碰| 日韩在线中文字幕 | 欧美久久视频 | 日韩在线不卡 | 免费一区二区 | av毛片 | 在线观看久草 | 日本久久久久久 | 亚洲一区二区精品视频 | 成人h电影在线观看 | 国产精品视频一二三区 | 国产黄色在线 | 日韩免费在线观看视频 | 色婷婷av一区二区三区软件 | 99久久精品国产一区二区三区 |