成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小模型如何進行上下文學習?字節跳動 & 華東師大聯合提出自進化文本識別器

人工智能 新聞
目前,在實際應用場景中,場景文本識別面臨著多種挑戰:不同的場景、文字排版、形變、光照變化、字跡模糊、字體多樣性等,因此很難訓練一個能應對所有場景的統一的文本識別模型。

我們都知道,大語言模型(LLM)能夠以一種無需模型微調的方式從少量示例中學習,這種方式被稱為「上下文學習」(In-context Learning)。這種上下文學習現象目前只能在大模型上觀察到。比如 GPT-4、Llama 等大模型在非常多的領域中都表現出了杰出的性能,但還是有很多場景受限于資源或者實時性要求較高,無法使用大模型。

那么,常規大小的模型是否具備這種能力呢?為了探索小模型的上下文學習能力,字節和華東師大的研究團隊在場景文本識別任務上進行了研究。

目前,在實際應用場景中,場景文本識別面臨著多種挑戰:不同的場景、文字排版、形變、光照變化、字跡模糊、字體多樣性等,因此很難訓練一個能應對所有場景的統一的文本識別模型。

一個直接的解決辦法是收集相應的數據,然后在具體場景下對模型進行微調。但是這一過程需要重新訓練模型,計算量很大,而且需要針對不同場景需要保存多個模型權重。如果文本識別模型也能具備上下文學習能力,面對新的場景,只需要少量標注數據作為提示,就能提升在新場景上的性能,那么上面的問題就迎刃而解。不過,場景文本識別是一個資源敏感型任務,將大模型當作文本識別器非常耗費資源,通過初步的實驗,研究人員得到的觀察是傳統的大模型訓練方法在場景文本識別任務上并不適用。

為了解決這個問題,來自字節跳動和華東師大的研究團隊提出了自進化文本識別器,E2STR(Ego-Evolving Scene Text Recognizer),一個融合了上下文學習能力的常規大小的文本識別器,無需微調即可快速適應不同的文本識別場景。

論文地址:https://arxiv.org/pdf/2311.13120.pdf

E2STR 配備了一種上下文訓練和上下文推理模式,不僅在常規數據集上達到了 SOTA 的水平,而且可以使用單一模型提升在各個場景中的識別性能,實現對新場景的快速適應,甚至超過了經過微調后專用模型的識別性能。E2STR 證明,常規大小的模型足以在文本識別任務中實現有效的上下文學習能力。

方法

圖 1 介紹了 E2STR 的訓練和推理流程。

圖片

1. 基礎文本識別訓練

基礎文本識別訓練階段采用自回歸框架訓練視覺編碼器和語言解碼器,目的為了獲取文本識別能力:

圖片

2. 上下文訓練

上下文訓練階段 E2STR 將根據文中提出的上下文訓練范式進行進一步訓練。在這一階段,E2STR 會學習理解不同樣本之間的聯系,從而從上下文提示中獲取推理能力。

圖片

如圖 2 所示,這篇文章提出 ST 策略,在場景文本數據中進行隨機的分割和轉換,從而生成一組 "子樣本"。子樣本在視覺和語言方面都是內在聯系的。這些內在聯系的樣本被拼接成一個序列,模型從這些語義豐富的序列中學習上下文知識,從而獲取上下文學習的能力。這一階段同樣采用自回歸框架進行訓練:

圖片

3. 上下文推理

針對一個測試樣本,該框架會從上下文提示池中選擇 N 個樣本,這些樣本在視覺隱空間與測試樣本具有最高的相似度。具體來說,這篇文章通過對視覺 token 序列做平均池化,計算出圖像 embedding I 。然后,從上下文池中選擇圖像嵌入與 I 的余弦相似度最高的前 N 個樣本,從而形成上下文提示。

圖片

上下文提示和測試樣本拼接在一起送入模型,E2STR 便會以一種無訓練的方式從上下文提示中學得新知識,提升測試樣本的識別準確率。值得注意的是,上下文提示池只保留了視覺編碼器輸出的 token,使得上下文提示的選擇過程非常高效。此外,由于上下文提示池很小,而且 E2STR 不需要訓練就能直接進行推理,因此額外的消耗也降到了最低限度。

實驗

實驗從三個角度進行:分別是傳統文本識別集、跨域場景識別、困難樣本修正。

1. 傳統數據集

從訓練集中隨機抽取很少的樣本(1000 個,訓練集 0.025% 的樣本數量)組成上下文提示池,在 12 個常見的場景文本識別測試集中進行的測試,結果如下:

圖片

可以發現 E2STR 在識別性能差不多已經飽和的傳統數據集上依然有所提升,超越了 SOTA 模型的表現。

2. 跨域場景

跨域場景下每個測試集僅提供 100 個域內訓練樣本,無訓練和微調對比結果如下,E2STR 甚至超過了 SOTA 方法的微調結果。

圖片

3. 困難樣本修正

研究人員收集了一批困難樣本,對這些樣本提供了 10%~20% 的標注,對比 E2STR 的無需訓練的上下文學習方法和 SOTA 方法的微調學習方法,結果如下:

圖片

可以發現,相比于微調方法,E2STR-ICL 大大降低了困難樣本的錯誤率。

未來展望

E2STR 證明了使用合適的訓練和推理策略,小模型也可以擁有和 LLM 類似的 In-context Learning 的能力。在一些實時性要求比較強的任務中,使用小模型也可以對新場景進行快速的適應。更重要的是,這種使用單一模型來實現對新場景快速適應的方法使得構建統一高效的小模型更近了一步。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-15 15:45:42

自然語言語言模型

2023-09-16 13:47:47

人工智能數據

2025-03-07 08:52:07

2023-03-31 13:37:34

研究

2024-03-14 08:11:45

模型RoPELlama

2022-09-14 13:13:51

JavaScript上下文

2024-07-19 12:45:23

2025-03-18 08:14:05

2023-07-09 15:09:18

機器學習能力

2025-03-17 12:55:18

2022-09-15 08:01:14

繼承基礎設施基礎服務

2024-12-23 15:30:00

模型AI測試

2017-05-11 14:00:02

Flask請求上下文應用上下文

2023-10-23 13:23:03

數據訓練

2023-11-24 17:01:30

模型推理

2025-06-06 08:00:00

上下文管理器Python開發

2021-04-21 10:18:25

人工智能機器學習技術

2024-07-17 16:59:51

AI訓練

2012-12-31 10:01:34

SELinuxSELinux安全
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 岛国av免费看| 亚洲一区二区三区在线播放 | 福利视频二区 | 日韩1区2区| 亚洲人成网站777色婷婷 | 99亚洲精品| 成在线人视频免费视频 | 日韩第1页| 久久久精品一区 | 户外露出一区二区三区 | 久草a√| 欧美国产中文 | 日本不卡一区二区三区在线观看 | 欧美高清视频 | 国产美女久久 | 午夜免费看视频 | www.888www看片| 国产精品视频一区二区三区不卡 | 日本 欧美 国产 | 激情网站在线 | 久久999| 羞羞网站在线观看 | 综合五月婷 | 综合久久综合久久 | 亚洲精品一区二区三区免 | 欧美黄色大片在线观看 | 欧美激情欧美激情在线五月 | 成人免费视频在线观看 | 精品91久久 | 91麻豆精品国产91久久久久久久久 | 精品一区二区三区在线观看国产 | 99视频在线播放 | 欧美精品一区二区三区蜜桃视频 | 国产综合在线视频 | 伦理二区 | 色一情一乱一伦一区二区三区 | 久久久日韩精品一区二区三区 | 久久久久久亚洲精品 | 亚洲成人网在线 | 亚洲精品在线观看视频 | 精品一区av |