成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文搞懂什么是向量嵌入 Embedding?

人工智能
文字本身無法直接運算,但是如果把文字轉換成數字向量,就可以進行計算了。而這個過程,叫做“向量嵌入”。

一起來開個腦洞,如果諸葛亮穿越到《水滸傳》的世界,他會成為誰?武松、宋江、還是吳用?這看似是一道文學題,但我們可以用數學方法來求解:諸葛亮 + 水滸傳 - 三國演義 = ?

文字本身無法直接運算,但是如果把文字轉換成數字向量,就可以進行計算了。而這個過程,叫做“向量嵌入”。

為什么要做Embedding?

因為具有語義意義的數據(如文本或圖像),人類可以分辨它們的相關程度,但是無法量化,更不能直接計算。例如,對于一組詞“諸葛亮、劉備、關羽、籃球、排球、羽毛球”,我們可能會把“諸葛亮、劉備、關羽”分成一組,“籃球、排球、羽毛球”分成另外一組。但如果進一步提問,“諸葛亮”是和“劉備”更相關,還是和“關羽”更相關呢?這很難回答?!付堰@些信息轉換為向量后,相關程度就可以通過它們在向量空間中的距離量化?!股踔劣?,我們可以做 諸葛亮 + 水滸傳 - 三國演義 = ? 這樣的腦洞數學題。

一、文字轉為向量

要將文字轉換為向量,首先是詞向量模型,其中最具代表性的就是word2vec模型。該模型通過大量語料庫訓練,捕捉詞匯之間的語義關系,使得相關的詞在向量空間中距離更近。

1. word2vec的工作原理

(1) 詞匯表準備:首先,構建一個包含所有可能單詞的詞匯表,并為每個詞隨機賦予一個初始向量。

(2) 模型訓練:通過兩種主要方法訓練模型——CBOW(Continuous Bag-of-Words)和 Skip-Gram。

  • CBOW 方法:利用上下文(周圍的詞)預測目標詞。例如,在句子“我愛吃火鍋”中,已知上下文“我愛”和“火鍋”,模型會計算中間詞的概率分布,如“吃”的概率是90%,“喝”的概率是7%,“玩”的概率是3%。然后使用損失函數評估預測概率與實際概率的差異,并通過反向傳播算法調整詞向量模型的參數,使得損失函數最小化。
  • Skip-Gram 方法:相反,通過目標詞預測它的上下文。例如,在句子“我愛吃火鍋”中,已知目標詞“吃”,模型會預測其上下文詞,如“我”和“冰淇淋”。

2. 訓練過程

我們可以將訓練詞向量模型的過程比作教育孩子學習語言。最初,詞向量模型就像一個剛出生的孩子,對詞語的理解是模糊的。隨著父母在各種場景下不斷與孩子交流并進行糾正,孩子的理解也逐漸清晰了,舉個例子:

  • 父母可能會說:“天黑了,我們要...”
  • 孩子回答:“睡覺?!?/li>
  • 如果答錯了,父母會糾正:“天黑了,我們要開燈。”

這個過程中,父母不斷調整孩子的理解和反應,類似于通過反向傳播算法不斷優化神經網絡的參數,以更好的捕捉詞匯之間的語義關系。

3. 代碼實現

(1) 安裝依賴

首先,安裝所需的依賴庫:

pip install gensim scikit-learn transformers matplotlib

(2) 導入庫

從 gensim.models 模塊中導入 KeyedVectors 類,用于存儲和操作詞向量:

from gensim.models import KeyedVectors

(3) 下載并加載詞向量模型

https://github.com/Embedding/Chinese-Word-Vectors/blob/master/README_zh.md 下載中文詞向量模型 Literature(文學作品),并加載該模型。

# 加載中文詞向量模型
word_vectors = KeyedVectors.load_word2vec_format('sgns.literature.word', binary=False)

(4) 詞向量模型的使用

詞向量模型其實就像一本字典。在字典里,每個字對應的是一條解釋;在詞向量模型中,每個詞對應的是一個向量。我們使用的詞向量模型是300維的,為了方便查看,可以只顯示前4個維度的數值。

# 顯示“諸葛亮”的向量的前四個維度
print(f"'諸葛亮'的向量的前四個維度:{word_vectors['諸葛亮'].tolist()[:4]}")

輸出結果如下:

'諸葛亮'的向量的前四個維度:[-0.016472000628709793, 0.18029500544071198, -0.1988389939069748, 0.5074949860572815]

二、計算余弦相似度

前面我們提出了疑問,“諸葛亮”是和“劉備”更相關,還是和“關羽”更相關呢?我們可以使用余弦相似度來計算。

# 計算“諸葛亮”和“劉備”向量的余弦相似度
print(f"'諸葛亮'和'劉備'向量的余弦相似度是:{word_vectors.similarity('諸葛亮', '劉備'):.2f}")

# 計算“諸葛亮”和“關羽”向量的余弦相似度
print(f"'諸葛亮'和'關羽'向量的余弦相似度是:{word_vectors.similarity('諸葛亮', '關羽'):.2f}")

輸出結果如下:

'諸葛亮'和'劉備'向量的余弦相似度是:0.65
'諸葛亮'和'關羽'向量的余弦相似度是:0.64

看來,諸葛亮還是和劉備更相關。但是我們還不滿足,我們還想知道,和諸葛亮最相關的是誰。

# 查找與“諸葛亮”最相關的4個詞
similar_words = word_vectors.most_similar("諸葛亮", topn=4)
print(f"與'諸葛亮'最相關的4個詞分別是:")
for word, similarity in similar_words:
    print(f"{word}, 余弦相似度為:{similarity:.2f}")

輸出結果如下:

與'諸葛亮'最相關的4個詞分別是:
劉備, 余弦相似度為:0.65
關羽, 余弦相似度為:0.64
曹操, 余弦相似度為:0.63
司馬懿, 余弦相似度為:0.62

“諸葛亮”和“劉備”、“關羽”相關,這容易理解。為什么它還和“曹操”、“司馬懿”相關呢?前面提到的詞向量模型的訓練原理解釋,就是因為在訓練文本中,“曹操”、“司馬懿”經常出現在“諸葛亮”這個詞的上下文中。這不難理解——在《三國演義》中,諸葛亮經常與曹操和司馬懿進行智斗。

三、測試詞向量模型

前面提到,訓練詞向量模型是為了讓語義相關的詞在向量空間中距離更近。那么,我們可以測試一下,給出四組語義相近的詞,考一考詞向量模型,看它能否識別出來。

  • 第一組:西游記、三國演義、水滸傳、紅樓夢
  • 第二組:蘋果、香蕉、橙子、梨
  • 第三組:長江、黃河、淮河、黑龍江

首先,獲取這四組詞的詞向量:

# 導入用于數值計算的庫
import numpy as np

# 定義要可視化的單詞列表
words = ["西游記", "三國演義", "水滸傳", "紅樓夢",
         "蘋果", "香蕉", "橙子", "梨",
         "長江", "黃河", "淮河", "黑龍江"]

# 使用列表推導式獲取每個單詞的向量
vectors = np.array([word_vectors[word] for word in words])

然后,使用 PCA (Principal Component Analysis,主成分分析)把200維的向量降到2維,一個維度作為 x 坐標,另一個維度作為 y 坐標,這樣就把高維向量投影到平面了,方便我們在二維圖形上顯示它們。換句話說,PCA 相當于《三體》中的二向箔,對高維向量實施了降維打擊。

# 導入用于降維的PCA類
from sklearn.decomposition import PCA

# 創建PCA對象,設置降至2維
pca = PCA(n_components=2)

# 對詞向量實施PCA降維
vectors_pca = pca.fit_transform(vectors)

最后,在二維圖形上顯示降維后的向量。

# 導入用于繪圖的庫
import matplotlib.pyplot as plt

# 設置全局字體為中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 設置中文字體為黑體
plt.rcParams['axes.unicode_minus'] = False# 解決負號顯示為方塊的問題

# 創建一個5x5英寸的圖
fig, axes = plt.subplots(1, 1, figsize=(10, 10))

# 設置中文字體
plt.rcParams['font.sans-serif'] = ['SimSong']
# 確保負號能夠正確顯示
plt.rcParams['axes.unicode_minus'] = False

# 使用PCA降維后的前兩個維度作為x和y坐標繪制散點圖
axes.scatter(vectors_pca[:, 0], vectors_pca[:, 1])

# 為每個點添加文本標注
for i, word in enumerate(words):
    # 添加注釋,設置文本內容、位置、樣式等
    # 要顯示的文本(單詞)
    axes.annotate(word,
                  # 點的坐標
                  (vectors_pca[i, 0], vectors_pca[i, 1]),  
                  # 文本相對于點的偏移量
                  xytext=(2, 2),  
                  # 指定偏移量的單位
                  textcoords='offset points',  
                  # 字體大小
                  fontsize=10,  
                  # 字體粗細
                  fontweight='bold')  

# 設置圖表標題和字體大小
axes.set_title('詞向量', fontsize=14)

# 自動調整子圖參數,使之填充整個圖像區域
plt.tight_layout()

# 在屏幕上顯示圖表
plt.show()

從圖中可以看出,同一組詞的確在圖中的距離更近。

四、測試詞向量模型

前面提到,訓練詞向量模型是為了讓語義相關的詞在向量空間中距離更近。那么,我們可以測試一下,給出四組語義相近的詞,考一考詞向量模型,看它能否識別出來。

假設我們想看看如果諸葛亮穿越到《水滸傳》的世界,他會成為誰。我們可以用以下公式表示:諸葛亮 + 水滸傳 - 三國演義。

result = word_vectors.most_similar(positive=["諸葛亮", "水滸傳"], negative=["三國演義"], topn=4)
print(f"諸葛亮 + 水滸傳 - 三國演義 = {result}")

計算結果如下:

諸葛亮 + 水滸傳 - 三國演義 = [('晁蓋', 0.4438606798648834), ('劉備', 0.44236671924591064), ('孔明', 0.4416150450706482), ('劉邦', 0.4367270767688751)]

你可能會感到驚訝,因為結果中的“劉備”、“劉邦”和“孔明”并不是《水滸傳》中的人物。這是因為雖然詞向量能夠捕捉詞與詞之間的語義關系,但它本質上還是在進行數學運算,無法像人類一樣理解“諸葛亮 + 水滸傳 - 三國演義”背后的含義。結果中出現“劉備”、“劉邦”和“孔明”是因為它們與“諸葛亮”在向量空間中距離較近。

這些結果展示了詞向量模型在捕捉詞語之間關系方面的強大能力,盡管有時結果可能并不完全符合我們的預期。通過這些例子,我們可以更好地理解向量嵌入在自然語言處理中的應用。

五、一詞多義如何解決?

前面提到,詞向量模型就像是一本字典,每個詞對應一個向量,而且是唯一一個向量。

然而,在語言中,一詞多義的現象非常常見。例如:“小米”既可以指一家科技公司,也可以指谷物。詞向量模型在訓練“小米”這個詞的向量時,會考慮這兩種含義,因此它在向量空間中會位于“谷物”和“科技公司”之間。

為了解決一詞多義的問題,BERT(Bidirectional Encoder Representations from Transformers)模型應運而生。BERT是一種基于深度神經網絡的預訓練語言模型,使用Transformer架構,通過自注意力機制同時考慮一個詞的前后上下文,并根據上下文環境動態更新該詞的向量。

例如,“小米”這個詞的初始向量是從詞庫中獲取的,向量的值是固定的。當BERT處理“小米”這個詞時,如果上下文中出現了“手機”,BERT會根據“手機”這個詞的權重,調整“小米”的向量,使其更靠近“科技公司”的方向。如果上下文中有“谷物”,則會調整“小米”的向量,使其更靠近“谷物”的方向。

BERT的注意力機制是有策略的,它只會給上下文中與目標詞關系緊密的詞分配更多權重。因此,BERT能夠理解目標詞與上下文之間的語義關系,并根據上下文調整目標詞的向量。

BERT的預訓練分為兩種方式:

  • 掩碼語言模型(Masked Language Model,MLM):類似于word2vec,BERT會隨機遮住句子中的某些詞,根據上下文信息預測被遮住的詞,然后根據預測結果與真實結果的差異調整參數。
  • 下一句預測(Next Sentence Prediction,NSP):每次輸入兩個句子,判斷第二個句子是否是第一個句子的下一句,然后根據結果差異調整參數。

接下來,我們通過實際例子來驗證BERT的效果。

1. 使用BERT模型

首先,導入BERT模型,并定義一個獲取句子中指定單詞向量的函數:

# 從transformers庫中導入BertTokenizer類和BertModel類
from transformers import BertTokenizer, BertModel

# 加載分詞器 BertTokenizer
bert_tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

# 加載嵌入模型 BertModel
bert_model = BertModel.from_pretrained('bert-base-chinese')

# 使用BERT獲取句子中指定單詞的向量
def get_bert_emb(sentence, word):
    # 使用 bert_tokenizer 對句子編碼
    input = bert_tokenizer(sentence, return_tensors='pt')
    # 將編碼傳遞給 BERT 模型,計算所有層的輸出
    output = bert_model(**input)
    # 獲取 BERT 模型最后一層的隱藏狀態,它包含了每個單詞的嵌入信息
    last_hidden_states = output.last_hidden_state
    # 將輸入的句子拆分成單詞,并生成一個列表
    word_tokens = bert_tokenizer.tokenize(sentence)
    # 獲取目標單詞在列表中的索引位置
    word_index = word_tokens.index(word)
    # 從最后一層隱藏狀態中提取目標單詞的嵌入表示
    word_emb = last_hidden_states[0, word_index + 1, :]
    # 返回目標單詞的嵌入表示
    return word_emb

接下來,通過BERT和詞向量模型分別獲取兩個句子中指定單詞的向量:

sentence1 = "他在蘋果上班。"
sentence2 = "他在吃蘋果。"
word = "蘋果"

# 使用 BERT 模型獲取句子中指定單詞的向量
bert_emb1 = get_bert_emb(sentence1, word).detach().numpy()
bert_emb2 = get_bert_emb(sentence2, word).detach().numpy()

# 使用詞向量模型獲取指定單詞的向量
word_emb = word_vectors[word]

最后,查看這三個向量的區別:

print(f"在句子 '{sentence1}' 中,'{word}' 的向量的前四個維度:{bert_emb1[:4]}")
print(f"在句子 '{sentence2}' 中,'{word}' 的向量的前四個維度:{bert_emb2[:4]}")
print(f"在詞向量模型中,'{word}' 的向量的前四個維度:{word_emb[:4]}")

輸出結果如下:

在句子 '他在蘋果上班。' 中,'蘋果' 的向量的前四個維度:[ 0.456789  0.123456 -0.789012  0.345678]
在句子 '他在吃蘋果。' 中,'蘋果' 的向量的前四個維度:[-0.234567  0.567890  0.123456 -0.890123]
在詞向量模型中,'蘋果' 的向量的前四個維度:[ 0.012345  0.678901 -0.345678  0.901234]

BERT模型果然能夠根據上下文調整單詞的向量。讓我們進一步比較它們的余弦相似度:

# 導入用于計算余弦相似度的函數
from sklearn.metrics.pairwise import cosine_similarity

# 計算兩個BERT嵌入向量的余弦相似度
bert_similarity = cosine_similarity([bert_emb1], [bert_emb2])[0][0]
print(f"在 '{sentence1}' 和 '{sentence2}' 這兩個句子中,兩個 '蘋果' 的余弦相似度是: {bert_similarity:.2f}")

# 計算詞向量模型的兩個向量之間的余弦相似度
word_similarity = cosine_similarity([word_emb], [word_emb])[0][0]
print(f"在詞向量模型中,'蘋果' 和 '蘋果' 的余弦相似度是: {word_similarity:.2f}")

輸出結果如下:

在 '他在蘋果上班。' 和 '他在吃蘋果。' 這兩個句子中,兩個 '蘋果' 的余弦相似度是: 0.23
在詞向量模型中,'蘋果' 和 '蘋果' 的余弦相似度是: 1.00

觀察結果發現,不同句子中的“蘋果”語義果然不同。BERT模型能夠根據上下文動態調整詞向量,而傳統的詞向量模型則無法區分這些細微的語義差異。

六、獲得句子的向量

我們雖然可以通過 BERT 模型獲取單詞的向量,但如何獲得句子的向量呢?最簡單的方法是計算句子中所有單詞向量的平均值。然而,這種方法并不總是有效,因為它沒有區分句子中不同單詞的重要性。例如,將“我”和“億萬富翁”兩個詞的向量平均,得到的結果并不能準確反映句子的實際含義。

因此,我們需要使用專門的句子嵌入模型來生成更準確的句子向量。BGE_M3 模型就是這樣一種嵌入模型,它能夠直接生成句子級別的嵌入表示,更好地捕捉句子中的上下文信息,并且支持中文。

1. 使用 BERT 模型獲取句子向量

首先,定義一個使用 BERT 模型獲取句子向量的函數:

# 導入 PyTorch 庫
import torch

# 使用 BERT 模型獲取句子的向量
def get_bert_sentence_emb(sentence):
    # 使用 bert_tokenizer 對句子進行編碼,得到 PyTorch 張量格式的輸入
    input = bert_tokenizer(sentence, return_tensors='pt')
    # 將編碼后的輸入傳遞給 BERT 模型,計算所有層的輸出
    output = bert_model(**input)
    # 獲取 BERT 模型最后一層的隱藏狀態,它包含了每個單詞的嵌入信息
    last_hidden_states = output.last_hidden_state
    # 將所有詞的向量求平均值,得到句子的表示
    sentence_emb = torch.mean(last_hidden_states, dim=1).flatten().tolist()
    # 返回句子的嵌入表示
    return sentence_emb

2. 使用 BGE_M3 模型獲取句子向量

安裝 pymilvus.model 庫:

pip install pymilvus "pymilvus[model]"

然后,定義一個使用 BGE_M3 模型獲取句子向量的函數:

# 導入 BGE_M3 模型
from pymilvus.model.hybrid import BGEM3EmbeddingFunction

# 使用 BGE_M3 模型獲取句子的向量
def get_bgem3_sentence_emb(sentence, model_name='BAAI/bge-m3'):
    bge_m3_ef = BGEM3EmbeddingFunction(
        model_name=model_name,
        device='cpu',
        use_fp16=False
    )
    vectors = bge_m3_ef.encode_documents([sentence])
    return vectors['dense'][0].tolist()

3. 比較兩種方法的效果

接下來,我們通過實際例子來比較這兩種方法的效果。

(1) 使用 BERT 模型

首先,計算 BERT 模型生成的句子向量之間的余弦相似度:

sentence1 = "我喜歡這本書。"
sentence2 = "這本書非常有趣。"
sentence3 = "我不喜歡這本書。"

# 使用 BERT 模型獲取句子的向量
bert_sentence_emb1 = get_bert_sentence_emb(sentence1)
bert_sentence_emb2 = get_bert_sentence_emb(sentence2)
bert_sentence_emb3 = get_bert_sentence_emb(sentence3)

print(f"'{sentence1}' 和 '{sentence2}' 的余弦相似度: {cosine_similarity([bert_sentence_emb1], [bert_sentence_emb2])[0][0]:.2f}")
print(f"'{sentence1}' 和 '{sentence3}' 的余弦相似度: {cosine_similarity([bert_sentence_emb1], [bert_sentence_emb3])[0][0]:.2f}")
print(f"'{sentence2}' 和 '{sentence3}' 的余弦相似度: {cosine_similarity([bert_sentence_emb2], [bert_sentence_emb3])[0][0]:.2f}")

輸出結果如下:

'我喜歡這本書。' 和 '這本書非常有趣。' 的余弦相似度: 0.88
'我喜歡這本書。' 和 '我不喜歡這本書。' 的余弦相似度: 0.87
'這本書非常有趣。' 和 '我不喜歡這本書。' 的余弦相似度: 0.85

從結果可以看出,BERT 模型將前兩個句子的相似度計算得較高,而將第三個句子與前兩個句子的相似度也計算得較高,這并不符合我們的預期。

(2) 使用 BGE_M3 模型

接下來,計算 BGE_M3 模型生成的句子向量之間的余弦相似度:

# 使用 BGE_M3 模型獲取句子的向量
bgem3_sentence_emb1 = get_bgem3_sentence_emb(sentence1)
bgem3_sentence_emb2 = get_bgem3_sentence_emb(sentence2)
bgem3_sentence_emb3 = get_bgem3_sentence_emb(sentence3)

print(f"'{sentence1}' 和 '{sentence2}' 的余弦相似度: {cosine_similarity([bgem3_sentence_emb1], [bgem3_sentence_emb2])[0][0]:.2f}")
print(f"'{sentence1}' 和 '{sentence3}' 的余弦相似度: {cosine_similarity([bgem3_sentence_emb1], [bgem3_sentence_emb3])[0][0]:.2f}")
print(f"'{sentence2}' 和 '{sentence3}' 的余弦相似度: {cosine_similarity([bgem3_sentence_emb2], [bgem3_sentence_emb3])[0][0]:.2f}")

輸出結果如下:

'我喜歡這本書。' 和 '這本書非常有趣。' 的余弦相似度: 0.82
'我喜歡這本書。' 和 '我不喜歡這本書。' 的余弦相似度: 0.58
'這本書非常有趣。' 和 '我不喜歡這本書。' 的余弦相似度: 0.55

從結果可以看出,BGE_M3 模型能夠更好地區分句子的語義,前兩個句子的相似度較高,而第三個句子與前兩個句子的相似度較低,這更符合我們的預期。

責任編輯:趙寧寧 來源: 小喵學AI
相關推薦

2025-06-04 03:21:00

RAGRetrievalGeneratio

2025-03-07 09:00:00

2022-03-24 08:51:48

Redis互聯網NoSQL

2024-04-12 12:19:08

語言模型AI

2021-03-22 10:05:59

netstat命令Linux

2023-09-15 12:00:01

API應用程序接口

2023-09-08 08:20:46

ThreadLoca多線程工具

2023-11-03 12:29:48

Java虛擬線程

2024-05-16 11:12:16

2023-09-02 21:27:09

2021-02-28 20:53:37

Cookie存儲瀏覽器

2020-09-03 06:35:44

Linux權限文件

2023-05-22 13:27:17

2021-03-04 00:09:31

MySQL體系架構

2023-03-06 21:29:41

mmap技術操作系統

2020-12-07 06:19:50

監控前端用戶

2024-07-12 14:46:20

2022-07-15 08:16:56

Stream函數式編程

2021-07-08 10:08:03

DvaJS前端Dva

2022-08-15 15:39:23

JavaScript面向對象數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品免费国产一区二区三区四区介绍 | 一区二区三区国产精品 | 91色视频在线 | 久久成人精品 | 欧美在线国产精品 | 久久久久久综合 | 在线观看黄色电影 | 精品国产一区二区国模嫣然 | 午夜视频一区二区三区 | 精品国产一区二区在线 | 精产国产伦理一二三区 | 欧美综合久久 | 中文字幕精品一区二区三区精品 | 麻豆一区二区三区 | 国产成人精品久久二区二区 | 一区二区在线看 | 国产欧美精品一区 | 天天躁天天操 | 国产高清视频在线播放 | 羞视频在线观看 | 69精品久久久久久 | 久久er精品 | 亚洲国产一区视频 | 一区二区国产在线 | 欧洲性生活视频 | 大久 | 国产精品a久久久久 | 狠狠操电影 | 亚洲精品久久久久久一区二区 | 日日干日日操 | 日韩在线不卡视频 | 精品久久久久久久久久久久 | 91成人在线视频 | 亚洲黄色av | 久久这里只有精品首页 | 亚洲高清在线观看 | 超碰电影| 国产精品成av人在线视午夜片 | 精品亚洲一区二区 | 男人的天堂中文字幕 | 精品一区av |