成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM背后的基礎(chǔ)模型6:一文入門Embeddings 原創(chuàng)

發(fā)布于 2025-1-14 12:44
瀏覽
0收藏

Embeddings

Embeddings會分為兩個(gè)章節(jié),前部分主要還是放在常規(guī)方法總結(jié),后者主要放在神經(jīng)網(wǎng)絡(luò)技術(shù)。其實(shí)這個(gè)英文單詞不難理解,就是將對象用數(shù)字標(biāo)識描述。其實(shí)一直糾結(jié)是否要講述這個(gè)話題,因?yàn)榭缮羁蓽\。

若要用一句話概括,就是給輸入分配一個(gè)數(shù)字標(biāo)識,可以是一個(gè)整數(shù)數(shù)值也可以是一個(gè)向量。不過最重要的目的是在模型訓(xùn)練的過程中能夠高效且有效的學(xué)習(xí)參數(shù)。


這里需要解釋下向量,例如apple可以使用三維的向量[0.95,0.23,-0.23]來表示,也可以使用四維的向量來表示[0.95,0.23,-0.23,0.12],請注意下圖中Embedding Dimensions這一列,不同模型的Embedding維度不一


LLM背后的基礎(chǔ)模型6:一文入門Embeddings-AI.x社區(qū)

1.one-hot encoding

這是一種最直觀,也是最不需要動腦子的編碼模式。假如有10000個(gè)對象,那么每個(gè)對象就是一個(gè)10000維的向量,樸素也暴力。例如apple這個(gè)詞在第50個(gè),那么apple對應(yīng)的編碼就是:10000維的向量,這個(gè)向量除了第50個(gè)為1之外,其余的數(shù)值均為0。

#詞匯表
Vocabulary:
{'mat', 'the', 'bird', 'hat', 'on', 'in', 'cat', 'tree', 'dog'}
#詞匯表中詞匯和位置的映射
Word to Index Mapping:
{'mat': 0, 'the': 1, 'bird': 2, 'hat': 3, 'on': 4, ……}
#輸入一句話的編碼矩陣
One-Hot Encoded Matrix:
cat: [0, 0, 0, 0, 0, 0, 1, 0, 0]
in:  [0, 0, 0, 0, 0, 1, 0, 0, 0]
the: [0, 1, 0, 0, 0, 0, 0, 0, 0]
hat: [0, 0, 0, 1, 0, 0, 0, 0, 0]
dog: [0, 0, 0, 0, 0, 0, 0, 0, 1]
on:  [0, 0, 0, 0, 1, 0, 0, 0, 0]
the: [0, 1, 0, 0, 0, 0, 0, 0, 0]
mat: [1, 0, 0, 0, 0, 0, 0, 0, 0]
bird:[0, 0, 1, 0, 0, 0, 0, 0, 0]
in:  [0, 0, 0, 0, 0, 1, 0, 0, 0]
the: [0, 1, 0, 0, 0, 0, 0, 0, 0]
tree:[0, 0, 0, 0, 0, 0, 0, 1, 0]

這種編碼方式的缺點(diǎn)顯而易見,One-hot編碼會產(chǎn)生高維向量,使其計(jì)算成本高昂且占用大量內(nèi)存,尤其是在詞匯量較大的情況下;它不捕捉單詞之間的語義關(guān)系;它僅限于訓(xùn)練期間看到的詞匯,因此不適合處理詞匯表之外的單詞。

2.Feature Vector

第二種編碼方式是基于特征,其實(shí)彩色圖片是一種很好的例子。做過視覺學(xué)習(xí)的都知道彩色圖片常見的有三種通道(三維向量),分別代表RGB(紅綠藍(lán))。三種顏色取不同的值就可以合成任意一個(gè)位置的色塊。舉個(gè)例子橘色其實(shí)就可以使用orange = [1, .5, 0]來表示。說白了就是每個(gè)維度代表一種特征,然后組合起來就能代表一個(gè)輸入對象。

LLM背后的基礎(chǔ)模型6:一文入門Embeddings-AI.x社區(qū)

為了加深大家的理解,上圖這個(gè)例子更加直觀。假如約定的編碼只有4個(gè)維度,分別是“春夏秋冬”,那么上圖右側(cè)框框中的事物都可以使用下面的編碼來替代。具體的意思就是這個(gè)物體是不是在四季節(jié)出現(xiàn),當(dāng)然學(xué)過數(shù)學(xué)組合的都知道這種編碼方式只能將整個(gè)世界的對象分成16類。但是它已經(jīng)開始在編碼中存儲對象之間的某種關(guān)系。

emoji = [spring, summer, autumn, winter]
??    = [1, 1, 1, 0]
??    = [1, 0, 0, 0]
??    = [1, 0, 0, 0]
??    = [0, 1, 0, 0]
??    = [0, 0, 1, 1]
??    = [0, 0, 1, 1]
...etc


這種編碼模式更加符合人腦,人類在記憶某種事物的時(shí)候其實(shí)也是某種編碼,例如看到筆,一般會浮現(xiàn)它的形狀,屬性和相關(guān)的事物,例如紙張。

3.Document Vector

換個(gè)思路,假如收集了大量的文章,然后將文章里面的字詞在文章中出現(xiàn)的次數(shù)做個(gè)標(biāo)記。可以得到如下的矩陣:每一列代表著文章編號,每一行代表某個(gè)詞,通過觀察圖片你就會發(fā)現(xiàn)其實(shí)traffic和network是不是有點(diǎn)相似,按照這個(gè)編碼其實(shí)也是一種思路。

LLM背后的基礎(chǔ)模型6:一文入門Embeddings-AI.x社區(qū)

4.Co-occurrence Vector

順著剛才的思路,其實(shí)還有一種編碼的辦法:可以將文章按照特定的長度進(jìn)行窗口的滑動,然后統(tǒng)計(jì)在這個(gè)窗口里面單詞之間的關(guān)聯(lián)次數(shù)。下圖給出例子,從其中可以發(fā)現(xiàn)其實(shí)data和mining還是挺相似的。這種編碼的好處在于這種類型的embedding可以準(zhǔn)確地捕獲單詞的使用含義(畢竟單詞的含義會根據(jù)使用的時(shí)間、社區(qū)和上下文而變化)。

LLM背后的基礎(chǔ)模型6:一文入門Embeddings-AI.x社區(qū)

5.Neural Embedding

除了基于傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,其實(shí)可以采用神經(jīng)網(wǎng)絡(luò)來幫助自動化的抽取信息,方法很多。為了幫助大家更好的理解,這里先引入較早機(jī)器學(xué)習(xí)的一個(gè)術(shù)語,自編碼器。其實(shí)它的歷史很悠久,只不過到近期才被發(fā)揚(yáng)光大而已。

LLM背后的基礎(chǔ)模型6:一文入門Embeddings-AI.x社區(qū)

如何理解自編碼器呢,請看下圖:

LLM背后的基礎(chǔ)模型6:一文入門Embeddings-AI.x社區(qū)

當(dāng)輸入一副圖、一段語音或者一段文字的時(shí)候,通過綠色部分的神經(jīng)網(wǎng)絡(luò),然后輸出一個(gè)向量,緊接著再將這個(gè)向量輸入紫色部分的神經(jīng)網(wǎng)絡(luò),紫色部分的輸出為重建之后的圖、語音或者文字。最后用輸出和真實(shí)值對比出差異反過來調(diào)整兩個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù)。如此循環(huán)!

聰明的你一定反應(yīng)過來了,要是重建之后的正確率很高的話。那么中間變量是不是經(jīng)過壓縮的向量,代表了原圖,原語音或者原文。對了!這個(gè)就是自編碼器。


那么中間的向量代表什么,其實(shí)是可以的解釋。以輸入“圖片”為例,中間的向量有些維度描述對象特征,有些描述了材質(zhì)。有人曾經(jīng)做過實(shí)驗(yàn),語音通過自編碼器之后,中間向量有一部分代表內(nèi)容,一部分代表音調(diào)。取一段中文和一段日文的語音輸入編碼器,然后將兩個(gè)向量拆分組合,是可以重建出日語說中文。


如何用神經(jīng)網(wǎng)絡(luò)用于Embedding,下文會展開詳細(xì)講解。整體的基本思路還是在于將單詞的上下文和情景信息,通過神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練進(jìn)行編碼。

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 魯肅

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产在线网站 | 日韩成人在线观看 | 一区二区在线 | 九色.com| 91精品国产日韩91久久久久久 | 亚洲 中文 欧美 日韩 在线观看 | 日韩三级在线 | 一区二区国产精品 | 男女下面一进一出网站 | 亚洲天堂中文字幕 | 国产精品久久久久久久久久妞妞 | 久久不卡日韩美女 | 免费在线观看一区二区三区 | 亚洲精品美女视频 | 人人爽日日躁夜夜躁尤物 | 亚洲精品无人区 | 亚洲一区二区三区 | 欧美综合久久 | 国产精品成av人在线视午夜片 | 国产 91 视频 | 国产日韩欧美精品 | 午夜视频在线播放 | 免费同性女女aaa免费网站 | 韩日一区二区 | 亚洲第一黄色网 | 亚洲激情在线视频 | 国产成人午夜精品影院游乐网 | 日韩欧美亚洲 | 久久久久久久久久久久一区二区 | 久久蜜桃av一区二区天堂 | 久久91精品国产一区二区 | 午夜精品久久久久久久99黑人 | 午夜免费电影 | 亚洲国产日韩一区 | 国产精品毛片一区二区在线看 | 亚洲第一成人av | 一区二区三区四区av | 亚洲精品一区国产精品 | 青娱乐av| 国产高清视频 | 国产亚洲精品精品国产亚洲综合 |