成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI新模型用的嵌入技術被網友扒出來了

開發
前幾天,OpenAI 來了一波重磅更新,一口氣宣布了 5 個新模型,其中就包括兩個新的文本嵌入模型。

學起來吧。

前幾天,OpenAI 來了一波重磅更新,一口氣宣布了 5 個新模型,其中就包括兩個新的文本嵌入模型。

我們知道,嵌入是表示自然語言或代碼等內容中概念的數字序列。嵌入使得機器學習模型和其他算法更容易理解內容之間的關聯,也更容易執行聚類或檢索等任務。

使用更大的嵌入(比如將它們存儲在向量存儲器中以供檢索)通常要比更小的嵌入消耗更高的成本、以及更多的算力、內存和存儲。而 OpenAI 此次推出的兩個文本嵌入模型分別是更小且高效的 text-embedding-3-small 模型和更大且更強大的 text-embedding-3-large 模型。

這兩個新嵌入模型都使用一種技術進行訓練,允許開發人員權衡使用嵌入的性能和成本。具體來說,開發者通過在 dimensions API 參數中傳遞嵌入而不丟失其概念表征屬性,從而縮短嵌入(即從序列末尾刪除一些數字)。例如在 MTEB 基準上,text-embedding-3-large 可以縮短為 256 的大小, 同時性能仍然優于未縮短的 text-embedding-ada-002 嵌入(大小為 1536)。

這一技術應用非常靈活:比如當使用僅支持最高 1024 維嵌入的向量數據存儲時,開發者現在仍然可以使用最好的嵌入模型 text-embedding-3-large 并指定 dimensions API 參數的值為 1024,使得嵌入維數從 3072 開始縮短,犧牲一些準確度以換取更小的向量大小。

OpenAI 所使用的「縮短嵌入」方法,隨后引起了研究者們的廣泛注意。

人們發現,這種方法和 2022 年 5 月的一篇論文所提出的「Matryoshka Representation Learning」方法是相同的。

OpenAI 的新嵌入模型更新背后隱藏的是 @adityakusupati 等人提出的一種很酷的嵌入表征技術。

而 MRL 的一作 Aditya Kusupati 也現身說法:「OpenAI 在 v3 嵌入 API 中默認使用 MRL 用于檢索和 RAG!其他模型和服務應該很快就會迎頭趕上。」

那么 MRL 到底是什么?效果如何?都在下面這篇 2022 年的論文里。

MRL 論文介紹

論文標題:Matryoshka Representation Learning

論文鏈接:https://arxiv.org/pdf/2205.13147.pdf

研究者提出的問題是:能否設計一種靈活的表征方法,以適應計算資源不同的多個下游任務?

MRL 通過以嵌套方式對 O (log (d)) 低維向量進行顯式優化在同一個高維向量中學習不同容量的表征,因此被稱為 Matryoshka「俄羅斯套娃」。MRL 可適用于任何現有的表征 pipeline,并可輕松擴展到計算機視覺和自然語言處理中的許多標準任務。

圖 1 展示了 MRL 的核心理念以及所學習 Matryoshka 表征的自適應部署設置:

Matryoshka 表征的第一個 m-dimensions(m∈[d])是一個信息豐富的低維向量,不需要額外的訓練成本,其精確度不亞于獨立訓練的 m 維表征法。Matryoshka 表征的信息量隨著維度的增加而增加,形成了一種從粗到細的表征法,而且無需大量的訓練或額外的部署開銷。MRL 為表征向量提供了所需的靈活性和多保真度,可確保在準確性與計算量之間實現近乎最佳的權衡。憑借這些優勢,MRL 可根據精度和計算約束條件進行自適應部署。

在這項工作中,研究者將重點放在了現實世界 ML 系統的兩個關鍵構件上:大規模分類和檢索。

在分類方面,研究者使用了自適應級聯,并使用由 MRL 訓練的模型產生的可變大小表征,從而大大降低了達到特定準確率所需的嵌入式平均維數。例如,在 ImageNet-1K 上,MRL + 自適應分類的結果是,在精度與基線相同的情況下,表征大小最多可縮小 14 倍。

同樣地,研究者在自適應檢索系統中也使用了 MRL。在給定一個查詢的情況下,使用查詢嵌入的前幾個 dimensions 來篩選檢索候選對象,然后連續使用更多的 dimensions 對檢索集進行重新排序。與使用標準嵌入向量的單次檢索系統相比,這種方法的簡單實現可實現 128 倍的理論速度(以 FLOPS 計)和 14 倍的墻上時鐘時間速度;需要注意的是,MRL 的檢索精度與單次檢索的精度相當(第 4.3.1 節)。

最后,由于 MRL 明確地學習了從粗到細的表征向量,因此直觀地說,它應該在不同 dimensions 之間共享更多的語義信息(圖 5)。這反映在長尾持續學習設置中,準確率最多可提高 2%,同時與原始嵌入一樣穩健。此外,由于 MRL 具有粗粒度到細粒度的特性,它還可以用作分析實例分類難易程度和信息瓶頸的方法。

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2025-01-21 12:44:50

2025-01-20 15:50:00

AI軟件模型

2023-07-11 15:30:08

GPT-4架構

2024-09-14 15:19:11

2023-05-16 20:47:38

2024-02-04 07:20:00

AI模型

2023-05-17 10:05:56

2025-02-21 15:18:20

2022-03-16 17:25:19

p2p下載器軟件

2025-06-23 09:16:00

2023-08-01 09:40:56

超導技術

2023-11-01 13:37:26

2024-03-05 09:16:32

AI模型GPT-4

2023-10-19 13:41:00

數據訓練

2023-11-18 09:09:44

OpenAI微軟

2025-03-13 10:29:17

模型奧特曼AI

2024-12-12 00:40:07

2024-05-10 12:58:08

2024-10-05 00:00:00

2019-08-12 09:34:10

柬埔寨HR代碼
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91免费观看视频 | 在线a视频 | 国产一级一级毛片 | 欧美黄色小视频 | 国精产品一品二品国精在线观看 | av片免费 | 欧美日韩在线免费 | 国产在线观看一区二区三区 | 色视频成人在线观看免 | 91在线观看| 五月天婷婷狠狠 | 免费超碰| 久久精品国产久精国产 | 亚洲精品二区 | 欧美 日韩 中文 | 久久99精品久久久久久秒播九色 | 国产日韩欧美二区 | 一区二区三区免费 | 亚洲黄色av网站 | 一区二区三区四区在线视频 | 尤物视频在线免费观看 | 欧美中文字幕一区二区三区亚洲 | 久久久亚洲一区 | 国产一区二区欧美 | 一区二区国产在线 | 最新中文字幕在线 | 久久久久久免费看 | 亚洲精品视频在线观看免费 | 国产精品一区久久久久 | 日本精品一区二区三区在线观看视频 | 欧美成人猛片aaaaaaa | 孰女乱色一区二区三区 | 亚洲精品成人免费 | 色噜噜狠狠色综合中国 | aaaa日韩| 亚洲精品视频导航 | 中文字幕在线一区二区三区 | 午夜激情在线 | 紧缚调教一区二区三区视频 | 日本精品一区二区在线观看 | 成人婷婷 |