自然語言理解中的詞向量發展歷史

發布于 2025-5-28 06:56

瀏覽

0收藏

詞向量技術作為自然語言處理（NLP）的核心基礎，其發展歷程深刻反映了人工智能領域對語言本質認知的演進。從早期基于統計的符號化表示，到深度學習驅動的分布式語義建模，再到預訓練語言模型時代的動態上下文感知，詞向量的技術革新始終圍繞著"如何讓計算機理解人類語言"這一核心命題展開。

一、理論奠基與早期實踐（1950-2000）

1. 分布式語義假設的提出

1954年，英國哲學家John Firth提出"詞的語義由其上下文決定"的分布式假設，這一思想成為詞向量技術的理論基石。早期研究者通過構建共現矩陣（Co-occurrence Matrix）量化詞間關系，矩陣元素記錄詞匯在固定窗口內的共現次數。例如，在語料庫"I love deep learning. Deep learning is amazing."中，"deep"與"learning"的共現次數會被統計為2。

2. 統計方法的突破

潛在語義分析（LSA，1990）：通過奇異值分解（SVD）對共現矩陣降維，在低維空間捕捉詞間潛在語義關系。其局限性在于無法處理一詞多義，且計算復雜度隨語料規模指數增長。
主題模型（LDA，2003）：引入概率圖模型，將文檔表示為主題分布，詞表示為概率分布。這種方法通過貝葉斯推斷實現語義解耦，但主題數量需預先指定，且難以處理短文本。

3. 神經網絡的早期探索

2003年，Yoshua Bengio提出神經網絡語言模型（NNLM），首次將詞向量作為模型參數聯合訓練。該模型通過投影層將離散詞符號映射為連續向量，但受限于計算資源，僅在小規模語料上驗證可行性。

二、深度學習驅動的革命（2003-2013）

1. Word2Vec的技術突破

2013年，Google發布的Word2Vec工具標志著詞向量技術的成熟。該框架包含兩種核心模型：

CBOW（Continuous Bag-of-Words）：通過上下文詞預測目標詞，適合大規模語料。例如，給定"the cat sits on __"，模型需預測"mat"。
Skip-Gram：反向操作，用目標詞預測上下文，在稀有詞表示上表現更優。如輸入"mat"，需預測"the cat sits on"。

技術創新點包括：

層次Softmax：通過霍夫曼樹將詞匯編碼為路徑，將計算復雜度從O(V)降至O(logV)。
負采樣（Negative Sampling）：隨機采樣負例優化目標函數，顯著提升訓練效率。

2. GloVe的全局語義捕捉

2014年，斯坦福團隊提出GloVe模型，結合全局詞頻統計與局部上下文。相比Word2Vec，GloVe在詞類比任務（如"king-man+woman=queen"）上表現提升15%。

三、預訓練時代的范式升級（2018-2023）

1. 動態上下文感知

ELMo（2018）：采用雙向LSTM架構，為每個詞生成上下文相關表示。在SQuAD閱讀理解任務中，ELMo將F1值從70.2提升至75.8。
BERT（2019）：基于Transformer編碼器，通過掩碼語言模型（MLM）和下一句預測（NSP）任務預訓練。其340M參數模型在GLUE基準測試中平均得分80.5，較傳統詞向量提升25%。

2. 模型架構創新

Transformer-XL（2019）：引入片段遞歸機制和相對位置編碼，解決長文本依賴問題。在WikiText-103數據集上，困惑度（perplexity）從21.8降至18.3。
XLNet（2019）：通過排列語言建模（PLM）融合自回歸和自編碼優勢，在20項NLP任務中18項超越BERT。