大模型的嵌入——Embedding與向量——Ve ctor 原創
最近在研究RAG然后帶來了對嵌入與向量的思考;畢竟嵌入與向量是實現大模型的基礎;嵌入解決的是數據向量化的問題,而向量解決的是數據之間的關系問題。
Embedding中文翻譯是嵌入,但更形象的理解是——在機器學習和大模型中,嵌入是一種數據向量化或向量表示的技術;簡單來說就相當于一個轉換器,把人類能夠理解的數據包括文本,圖像等轉換為大模型方便處理的向量數據。
而向量是數學概念中的一個表示有大小和方向的量,其空間幾何意義就是一個帶有方向的箭頭,并且可以平移;而更直觀的理解可以把向量當成一個多維矩陣,更確切的說是用多維矩陣來描述向量。
因此,我們在大模型技術中所說的向量指的并不是空間維度;而是數據所構成的維度。所以說,向量是一個數學概念,而矩陣是向量在計算機中的載體。
嵌入與向量
向量
向量在數學上表示的一個有方向和大小的量,在計算機中的載體是一個多維矩陣;因此向量從某些方面講就具備矩陣的性質,比如維度變換。
在大模型中數據一半通過多維矩陣來描述,比如大模型參數中有一個很重要的參數就是維度(dimension);這個維度指的就是多維矩陣的維度,維度越高,能夠表示的場景就越復雜。
但同樣,由于矩陣中存在著太多無用數據;因此就產生了密集矩陣和稀疏矩陣的區別;而稀疏矩陣可以通過降維的方式來壓縮其矩陣大小,以此來獲取更高的存儲效率。
高維矩陣與低維矩陣的區別就類似于圖片中的像素點;像素點越多,圖片質量越好,觀感上就更細膩;而像素點越低,圖像就越模糊,丟失的東西就越多。
但同樣的圖片效果怎么樣,除了像素點之外還有你觀看距離的影響,離得越遠,像素點的影響越小。
而為了解決近距離觀看的效果,升維就有了用武之地;而遠距離觀看,就可以對數據進行降維處理,節省空間,提升效率。
而至于怎么描述數據之間的語義關系,就是通過向量之間的計算——比如歐式距離,余弦,內積等。
嵌入
嵌入雖然本質上都是把離散數據映射到高維矩陣中,通過向量的空間關系來捕捉數據之間的語義關系;但其在不同的場景中又有一定的區別。
詞嵌入
詞嵌入是將單詞映射為數值向量,以捕捉單詞間的語義和句法關系,為自然語言處理任務提供有效的特征表示。
方法與技術:詞嵌入通過預測單詞上下文(如Word2Vec)或全局詞頻統計(如GloVe)來學習,也可使用深度神經網絡捕捉更復雜的語言特征。
圖像嵌入
圖像嵌入是將圖像轉換為低維向量,以簡化處理并保留關鍵信息供機器學習使用。
方法與技術:利用深度學習模型(如CNN)抽取圖像特征,通過降維技術映射到低維空間,訓練優化嵌入向量。
在機器學習中,Embedding 主要是指將離散的高維數據(如文字、圖片、音頻)映射到低緯度的連續向量空間。這個過程會生成由實數構成的向量,用于捕捉原始數據的潛在的關系和結構。
本文轉載自公眾號AI探索時代 作者:DFires
