作者 | 汪昊
審校 | 重樓
2013 年是自然語言處理領域發生巨變的一年。這一年,詞向量算法 word2vec 誕生了。這一算法將文字符號轉換為了數字向量,從而給自然語言算法帶來了更多的可能。在隨后的 2014 年,詞向量算法 GloVe 誕生了。GloVe 算法的余威一直等到 BERT-flow (2020) 和 BERT-whitening (2021) 發明之后才慢慢終結。隨著 BERT 及其變體的發展,詞向量從 2018 年開始又經歷了新一輪的技術革新。
詞向量的算術運算被廣泛應用在各種自然語言任務中,比如文本分類和聚類、新聞推薦、聊天機器人等等。一個非常著名的例子就是 king - man + woman = queen。這個例子說明了詞向量的奇特性質。然而在 2024 年國際學術會議 ICNLP 2024 上發表的一篇論文 Human Language is Non-Manifold 上,有學者證明詞向量的分布不是流形,因此有可能存在空洞等結構,所以詞向量不能隨意做算術運算,因為算術運算的結果有可能不在定義域內。
首先,我們介紹一下 Poincare-Hopf 定理:在一個緊致、有向的流形上定義的向量場的奇點的度等于流形的歐拉示性數。
下面我們來構造一個向量場:根據詞向量的相似矩陣 sim(i,j) ,利用降維算法將詞向量降維至二維平面。在平面上的每一個數據點 i 上定義 N-1 個向量 (sim(i,j)-C, sim(i,j)-C) ,其中 j 為剩余詞向量集合中的某個向量,而 C 是一個常數值??梢钥吹?,這個向量場都分布在與 y = x 平行的直線上,因而可以很容易將奇點構造成鞍點。所以如果這個向量場的定義域是緊湊、有向的流形的話,這個向量場中零點的個數就是定義域流形的歐拉示性數。這里的 C 可以是 sim(‘apple’, ‘pear’) ,也可以是 sim(‘woman’, ‘man’) 。因此,如果詞向量的定義域是緊湊、有向的流形的話,那么相似性等于sim(‘apple’, ‘pear’) 的詞向量對的數量等于 sim(‘woman’, ‘man’)……,這顯然是不成立的。
根據剛才的問題構造,很顯然,詞向量分布的定義域不是緊致、有向的流形。因此,我們在做詞向量的算術運算的時候要格外小心了,因為運算結果可能不在定義域內。我們目前對詞向量的定義域究竟是什么形狀還了解不多,我們只能說,萬一定義域內存在孔洞等復雜結構,算術運算在某些區域內將不成立。
ICNLP 2024 的這篇 Human Language is Non-Manifold 論文涉及到了整個自然語言處理的理論基礎。詞向量不能隨便做算術運算,相當于給詞向量的許多應用判了死刑。這個結論告訴我們,做研究要夯實理論基礎,而不能只顧著在應用理論做微創新來快速奔跑。
作者簡介
汪昊,前達評奇智董事長兼創始人。前 Funplus 人工智能實驗室負責人。在 ThoughtWorks、豆瓣、百度、新浪、網易等公司有超過 13 年的技術和技術管理經驗。精通推薦系統、風控反欺詐、聊天機器人和爬蟲等領域。在國際學術會議和期刊發表論文 44 篇。5 次獲得最佳論文獎/最佳論文報告獎。2006 年 ACM/ICPC 北美落基山區域賽金牌。