成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

什么?詞向量不能隨意做算術運算!

原創 精選
人工智能
2013 年是自然語言處理領域發生巨變的一年。這一年,詞向量算法 word2vec 誕生了。這一算法將文字符號轉換為了數字向量,從而給自然語言算法帶來了更多的可能。

作者 | 汪昊

審校 | 重樓

2013 年是自然語言處理領域發生巨變的一年。這一年,詞向量算法 word2vec 誕生了。這一算法將文字符號轉換為了數字向量,從而給自然語言算法帶來了更多的可能。在隨后的 2014 年,詞向量算法 GloVe 誕生了。GloVe 算法的余威一直等到 BERT-flow (2020) 和 BERT-whitening (2021) 發明之后才慢慢終結。隨著 BERT 及其變體的發展,詞向量從 2018 年開始又經歷了新一輪的技術革新。

詞向量的算術運算被廣泛應用在各種自然語言任務中,比如文本分類和聚類、新聞推薦、聊天機器人等等。一個非常著名的例子就是 king - man + woman = queen。這個例子說明了詞向量的奇特性質。然而在 2024 年國際學術會議 ICNLP 2024 上發表的一篇論文 Human Language is Non-Manifold 上,有學者證明詞向量的分布不是流形,因此有可能存在空洞等結構,所以詞向量不能隨意做算術運算,因為算術運算的結果有可能不在定義域內。

首先,我們介紹一下 Poincare-Hopf 定理:在一個緊致、有向的流形上定義的向量場的奇點的度等于流形的歐拉示性數。

下面我們來構造一個向量場:根據詞向量的相似矩陣 sim(i,j) ,利用降維算法將詞向量降維至二維平面。在平面上的每一個數據點 i 上定義 N-1 個向量 (sim(i,j)-C, sim(i,j)-C) ,其中 j 為剩余詞向量集合中的某個向量,而 C 是一個常數值??梢钥吹?,這個向量場都分布在與 y = x 平行的直線上,因而可以很容易將奇點構造成鞍點。所以如果這個向量場的定義域是緊湊、有向的流形的話,這個向量場中零點的個數就是定義域流形的歐拉示性數。這里的 C 可以是 sim(apple, pear) ,也可以是 sim(woman, man) 。因此,如果詞向量的定義域是緊湊、有向的流形的話,那么相似性等于sim(apple, pear) 的詞向量對的數量等于 sim(woman, man)……,這顯然是不成立的。

根據剛才的問題構造,很顯然,詞向量分布的定義域不是緊致、有向的流形。因此,我們在做詞向量的算術運算的時候要格外小心了,因為運算結果可能不在定義域內。我們目前對詞向量的定義域究竟是什么形狀還了解不多,我們只能說,萬一定義域內存在孔洞等復雜結構,算術運算在某些區域內將不成立。

ICNLP 2024 的這篇 Human Language is Non-Manifold 論文涉及到了整個自然語言處理的理論基礎。詞向量不能隨便做算術運算,相當于給詞向量的許多應用判了死刑。這個結論告訴我們,做研究要夯實理論基礎,而不能只顧著在應用理論做微創新來快速奔跑。

作者簡介

汪昊,達評奇智董事長兼創始人。前 Funplus 人工智能實驗室負責人。在 ThoughtWorks、豆瓣、百度、新浪、網易等公司有超過 13 年的技術和技術管理經驗。精通推薦系統、風控反欺詐、聊天機器人和爬蟲等領域。在國際學術會議和期刊發表論文 44 篇。5 次獲得最佳論文獎/最佳論文報告獎。2006 年 ACM/ICPC 北美落基山區域賽金牌。

責任編輯:華軒 來源: 51CTO
相關推薦

2024-06-26 09:13:03

2023-07-17 14:29:01

Bash算術運算

2010-03-09 11:15:28

Python語言教程

2009-08-11 15:51:08

C#運算符算術運算符

2020-09-10 06:46:33

Python

2021-11-05 06:02:23

App信息應用商店

2024-04-10 12:14:36

C++指針算術運算

2018-06-04 15:17:10

編程語言中文編程

2011-05-24 11:04:00

2021-10-20 14:03:06

C++運算符類型

2019-01-21 10:34:13

Linux運算命令

2024-10-22 15:41:47

NumPyPython

2017-07-19 10:22:07

2016-02-19 16:11:54

數據科學家數據科學大數據

2024-07-01 10:16:55

搜索向量數據類型

2020-09-08 09:04:26

uuidMySQL主鍵

2018-07-04 20:00:58

區塊鏈數字審計數據完整性

2010-01-26 17:42:14

Android浮點

2022-12-13 10:13:09

智能駕駛

2024-01-30 14:23:06

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品一区二区三区在线 | 成人黄在线观看 | 日韩精品久久久久久 | 在线国产一区二区 | 精品国产一区二区国模嫣然 | 成人av网站在线观看 | 天天草天天干天天 | 天天干天天插 | www.婷婷 | 免费国产精品久久久久久 | 成人在线观看欧美 | 久久久国产一区 | 视频一区欧美 | 久久精品亚洲精品国产欧美 | 国产精品视频一区二区三 | 国产农村一级片 | 玖玖玖av| 成人免费观看男女羞羞视频 | 性一交一乱一伦视频免费观看 | 国产精品178页 | 国产激情网站 | 国产主播第一页 | 国产精品伦一区二区三级视频 | 在线观看日本高清二区 | 狠狠爱综合 | 欧美日韩综合视频 | 亚洲一区二区精品视频 | 国产成年人视频 | 国产精品久久福利 | 91精品国产综合久久久久久蜜臀 | 综合二区 | 日韩福利一区 | 黄视频免费 | 亚洲人成人一区二区在线观看 | 99国产视频| 天天拍天天操 | 91天堂网 | 久久久国产一区二区三区四区小说 | 久久精品毛片 | 玖玖国产 | 特级毛片爽www免费版 |