成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不同于NLP,數據驅動方法與機器學習無法攻克NLU,原因有三點

新聞 機器學習
近年來,機器學習雖然被廣泛使用,但是卻不能很好的解決自然語言理解問題,其中可能涉及很多原因,ONTOLOGIK.AI 的創始人和首席NLU科學家Walid Saba給出了自己的觀點。

自然語言理解(NLU)是人工智能的核心課題之一,也被廣泛認為是最困難和最具標志性的任務。近年來,機器學習雖然被廣泛使用,但是卻不能很好的解決自然語言理解問題,其中可能涉及很多原因,ONTOLOGIK.AI 的創始人和首席NLU科學家Walid Saba給出了自己的觀點。

[[417828]]

20 世紀 90 年代早期,一場統計學革命取代了人工智能,并在 2000 年達到頂峰,而神經網絡憑借深度學習成功回歸。這一經驗主義轉變吞噬了人工智能的所有子領域,其中這項技術最具爭議的應用領域是自然語言處理。

以數據為驅動的經驗方法在 NLP 中被廣泛使用的原因主要包括:符號和邏輯方法在取得三十年的霸權后未能產生可擴展的 NLP 系統,從而導致 NLP 中所謂的經驗方法(EMNLP)興起,這些方法可以用數據驅動、基于語料庫、統計和機器學習來統稱。

這種向經驗主義轉變的背后動機非常簡單:在我們對語言是如何工作、以及語言如何與日常口語中談論的世界知識相關聯的,在對這些了解之前,經驗和數據驅動的方法有助于構建文本處理應用程序。正如 EMNLP 的先驅之一 Kenneth Church 所解釋的那樣,在 NLP 領域,倡導數據驅動和統計方法的科研人員,他們對解決簡單的語言任務感興趣,其動機從來不是暗示語言就是這樣工作的,而是做簡單的事情總比什么都不做要好。Church 認為這種轉變動機被嚴重誤解了,正如 McShane 在 2017 年所指出的,后來的幾代人誤解了這種經驗趨勢。

[[417829]]

EMNLP 會議創立者、先驅之一 Kenneth Church。

這種被誤導的趨勢導致了一種不幸的情況:堅持使用大型語言模型(large language model, LLM)構建 NLP 系統,這需要巨大的計算能力,而且試圖通過記憶大量數據來接近自然語言對象,這種做法是徒勞的。這種偽科學的方法不僅浪費時間和資源,而且會誤導新一代的年輕科學家,錯誤地讓他們認為語言就是數據。更糟糕的是,這種做法還阻礙了自然語言理解(NLU)的發展。

相反,現在應該重新思考 NLU 方法,因為對于 NLU 來說,大數據方法不但在心理上、認知上,甚至計算上都讓人難以置信,而且盲目數據驅動的方法在理論上和技術上也是有缺陷的。

自然語言處理 VS 自然語言理解

雖然自然語言處理(NLP)和自然語言理解(NLU)經常互換使用,但是兩者之間存在實質性差異,突出這種差異至關重要。事實上,區分自然語言處理和自然語言理解之間的技術差異,我們可以意識到以數據驅動和機器學習的方法雖然適用于 NLP 任務,但這種方法與 NLU 無關。以 NLP 中最常見的下游任務為例:

  • 摘要;
  • 主題抽取;
  • 命名實體識別;
  • 語義檢索;
  • 自動標簽;
  • 聚類。

上述任務與 PAC(Probably Approximately Correct, 可能近似正確)范式一致。具體地,NLP 系統的輸出評估是主觀的:沒有客觀的標準來判斷諸如一個摘要優于另一個,或某個系統提取的主題、短語比另一個系統提取的更好等等。然而,自然語言理解不允許有這樣的自由度。要完全理解一個話語或一個問題,需要理解說話者試圖表達的唯一思想。為了理解這個復雜的過程,以自然語言查詢為例:

我們是否有一位退休的 BBC 記者在冷戰期間駐扎在東歐國家?

在數據庫中,對上述查詢將有且只有一個正確答案。將上述表達轉化為正確的 SQL 或者 SPARQL 查詢具有很大的挑戰性。這個問題背后的關鍵點包括:

  • 需要正確解讀「退休的 BBC 記者」,即所有曾在 BBC 工作、現已退休的記者的集合;
  • 通過保留那些曾經也在一些「東歐國家」工作過的「退休 BBC 記者」來進一步過濾上述內容。除了地理限制,還有時間限制,那些「退休的 BBC 記者」的工作時間必須是「冷戰期間」;
  • 以上意味著將介詞短語「在冷戰期間」附加到「駐扎」而不是「東歐國家」;
  • 進行正確的量詞范圍界定:我們尋找的不是在某個東歐國家工作的一個(單一)記者,而是在任何東歐國家工作的任何記者。

以上對語義的理解不會是可能、大致正確,而是非常確定的絕對正確。換句話說,我們必須從對上述問題的多種可能解釋中得出唯一一種含義,根據常識知識,推出提問者問題背后的想法。總而言之,對普通口語的真正理解與單純的文本(或語言)處理是完全不同的問題。在文本(或語言)處理中,我們可以接受近似正確的結果——結果在可接受的概率下也是正確的。

通過這個簡短的描述,我們應該可以清楚地了解為什么 NLP 與 NLU 不同,以及為什么 NLU 對機器來說是困難的。但是 NLU 的困難到底是什么呢?

NLU 難點在于缺失文本現象

所謂的缺失文本現象(missing text phenomenon, MTP),可以將其理解為 NLP 任務挑戰的核心。語言交流的過程如下圖所示:說者將思想編碼為某種語言表達,然后聽者將該語言表達解碼為說者意圖傳達的思想。

[[417830]]

圖 1:說者和聽者的語言交流過程。

解碼過程就是 NLU 中的 U——也就是說,理解語言話語背后的思想正是解碼過程需要做的事情。此外,在這個解碼過程中沒有近似或任何自由度——也就是說,從一個話語的多種可能意義來看,說話人想要表達的思想只有一個,而解碼過程中的「理解」必須達到這一個思想,這正是 NLU 困難的原因。

在這種復雜的交流中,有兩種可能的優化方案:(1)說者可以壓縮(和最小化)在編碼中發送的信息量,并希望聽者在解碼(解壓縮)過程中做一些額外的工作;(2)說者盡最大努力傳遞所有必要的信息來傳達思想,而聽者幾乎什么也不用做。

隨著過程的自然演變,上述兩種方案似乎已經得到一個很好的平衡,即說者和聽者的總體工作都得到了同樣的優化。這種優化導致說者可以編碼盡可能少的信息,而忽略其他信息。遺漏的信息對于說者和聽者來說,是可以通過安全假設獲得的信息,這正是我們經常說的普通背景知識。

為了理解這一過程的復雜性,以下圖為例:黃色框中的是未優化的信息,以及我們通常所說的信息量同等但小得多的文本信息(綠色框中信息)。

不同于NLP,數據驅動方法與機器學習無法攻克NLU,原因有三點

綠色框中信息要短很多,這正是我們說話的方式,語言雖短,但傳達的是與較長信息相同的思想。通常我們不會明確地說出所有想要表達的東西:

不同于NLP,數據驅動方法與機器學習無法攻克NLU,原因有三點

也就是說,為了有效地溝通,我們在交流中通常不會說認為對方說都知道的信息。這也正是為什么我們都傾向于忽略相同的信息——因為我們都了解每個人都知道的,而這正是我們所謂的共同背景知識。人類在大約 20 萬年的進化過程中,發展出的這一天才優化過程非常有效。但這就是 NLU 的問題所在:機器不知道我們遺漏了什么信息,因為機器不知道我們都知道什么。最終結果導致 NLU 是非常困難的,因為如果一個軟件程序不能以某種方式揭示人類在語言交流中遺漏和隱含的所有東西,它就不能完全理解我們語言話語背后的思想。這實際上才是 NLU 的挑戰,而不是解析、詞干分析、詞性標記、命名實體識別等。

不同于NLP,數據驅動方法與機器學習無法攻克NLU,原因有三點

圖 2:NLU 中很多挑戰都是因為缺失文本現象造成的:圖中缺失的文本(隱式的假設)用紅色表示。

上述示例表明,NLU 的挑戰在于發現缺失信息,并隱含地認為這些信息是共享背景知識。下圖 3 進一步解釋了缺失文本現象:

不同于NLP,數據驅動方法與機器學習無法攻克NLU,原因有三點

我們在下文給出三個原因來解釋為什么機器學習和數據驅動方法不能解決 NLU 問題。

ML 方法與 NLU 無關:ML 是壓縮,語言理解需要解壓縮

用機器來實現自然語言理解是非常困難的,因為我們日常口語所表達的都是高度壓縮信息,「理解」的挑戰在于解壓縮出丟失文本。這對人類來說是很簡單的事情,但對機器來說卻大不相同,因為機器不知道人類掌握的知識。但 MTP 現象恰恰說明了為什么數據驅動與機器學習方法會在 NLP 任務中有效,但是在 NLU 中不起作用。

研究者在數學上已經建立了可學習性和可壓縮性(COMP)之間的等價關系。也就是說,只有當數據高度可壓縮(即它有很多冗余)時,在數據集中才會發生可學習性,反之亦然。雖然證明可壓縮性和可學習性之間的關系相當復雜,但直觀上很容易理解:可學習性是關于理解大數據的,它在多維空間中找到一個函數可以覆蓋所有的數據集信息。因此,當所有數據點都可以壓縮成一個流形時,就會發生可學習性。但是 MTP 告訴我們 NLU 是關于解壓縮的。以下列內容為例:

不同于NLP,數據驅動方法與機器學習無法攻克NLU,原因有三點

機器學習是將大量數據泛化為單個函數。另一方面,由于 MTP,自然語言理解需要智能的解壓縮技術,以發現所有缺失和隱式假設文本。因此,機器學習和語言理解是不相容的——事實上,它們是矛盾的。

ML 方法甚至與 NLU 無關:統計意義不大

ML 本質上是一種基于數據發現某些模式(相關性)的范式。研究者希望在自然語言中出現的各種現象在統計上存在顯著差異。舉例來說:

1. 獎杯裝不進手提箱,因為它太

1a. 小

1b. 大

同義詞與反義詞(例如小和大,開和關等)以相同的概率出現在上下文中,因此,在統計上來說 (1a) 和(1b) 是等價的,然而 (1a) 和(1b)所代表的內容也是相當不同的:在此句中,「它」在 (1a)中隱含的意思是指手提箱小,但在 (1b) 中是指獎杯大,盡管它們的語義相差很大,但是 (1a) 和(1b)在統計上是等價的。因此,統計分析不能建模(甚至不能近似)語義。

ML 方法甚至與 NLU 無關:intenSion

邏輯學家長期以來一直在研究一種稱為「intension」的語義概念。為了解釋什么是「intension」,首先要從所謂的語義三角(meaning triangle)開始講起,如下圖所示:

不同于NLP,數據驅動方法與機器學習無法攻克NLU,原因有三點

在語義三角中,每個「事物(或每個認知對象)」都具有三部分:一個指代概念符號,以及這個概念(有時)具有的一些實例。以「獨角獸」這個概念為例,在現實生活中并沒有實際的示例。概念本身是其所有潛在實例的理想化模板,可以想象,幾個世紀以來,哲學家、邏輯學家和認知科學家一直在爭論概念的本質及其定義,不管那場辯論如何,我們可以在一件事情上達成一致:一個概念(通常由某個符號 / 標簽引用)由一組特性集合和屬性定義,也許還有附加公理和既定事實等。然而,一個概念與實際(不完美)實例不同,在完美的數學世界中也是如此。舉例而言,雖然下面的算術表達式都具有相同的擴展,但它們具有不同的「intension」:

不同于NLP,數據驅動方法與機器學習無法攻克NLU,原因有三點

上圖中所有表達式的值都是 16,在某種意義(它們的值)上來說是相等的,但這只是屬性之一。事實上,上面的表達式還有其他幾個屬性,比如語法結構(為什么 a 和 d 是不同的)、運算符的數量等。其中值只是一個屬性,可以稱為擴展(extension),而所有屬性的集合是 intension。在應用科學(工程、經濟學等)中,我們可以認為這些對象是相等的,如果它們在值上是相等的,但在認知中,這種相等是不存在的。舉例來說:

不同于NLP,數據驅動方法與機器學習無法攻克NLU,原因有三點

假設 (1) 是真的——也就是說,假設 (1) 確實發生了,并且我們見證了它。盡管如此,這并不意味著我們可以假設 (2) 為真,盡管我們所做的只是將 (1) 中的 16 替換為一個(假設),而該假設等于它的值。我們用一個假定等于它的對象替換了陳述中的一個對象,并且我們從真實的事物推斷出不真實的事物!雖然在物理科學中可以很容易地用一個屬性的對象來替換它,但這在認知中是行不通的。

總結來說,本文討論了機器學習和數據驅動方法與 NLU 無關的三個原因(盡管這些方法可能用于一些本質上是壓縮任務的文本處理任務)。在傳達思想時,我們傳遞的是高度壓縮的語言信息,需要大腦來解釋和揭示所有缺失但隱含的背景信息。在很多方面,構建大語言模型時,機器學習和數據驅動方法都在徒勞地試圖尋找數據中根本不存在的東西。我們必須意識到,日常的口語信息,并不是理想的語言數據。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2010-03-01 15:08:05

WCF單向操作

2010-03-11 14:13:20

Python編程

2023-03-27 08:17:48

2013-03-20 10:05:01

英特爾逆襲ARM

2022-02-13 08:36:46

數字人民幣支付寶微信錢包

2010-07-22 16:50:00

2016-07-15 10:37:37

云性能云計算

2015-09-20 15:50:46

2014-12-23 10:12:44

融云即時通訊云IM3.0

2020-06-01 13:58:20

機器學習統計建模數據科學

2010-06-29 10:41:39

2018-07-30 23:58:14

工業制造互聯網網絡安全

2024-06-28 12:05:24

jsNode模塊

2025-04-21 01:10:00

jsnode代碼

2010-10-15 14:28:39

無線WLAN安全規范

2021-07-22 23:33:13

手機內存5G

2022-01-24 14:42:03

手機技術廠商

2011-06-14 17:14:33

SEO

2017-07-19 13:08:27

人工智能機器學習深度學習

2017-07-21 12:52:32

人工智能機器學習神經網絡
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩美女爱爱 | 欧美电影免费网站 | 亚洲网址在线观看 | 韩日在线视频 | 亚洲综合色视频在线观看 | 久久久精品一区二区三区 | 天堂精品视频 | 91免费版在线观看 | 97成人精品 | 中文字幕在线播放不卡 | 亚洲精品二区 | 久久精品超碰 | 亚洲成年人免费网站 | 日韩成人在线观看 | 国产精品入口久久 | 精品国产乱码一区二区三区a | 日本三级做a全过程在线观看 | 色婷婷九月| 日日夜夜免费精品 | 国产在线精品一区二区三区 | 日本不卡视频在线播放 | 久久久精品影院 | 99久久亚洲| 日韩成人免费中文字幕 | 国产乱码精品1区2区3区 | 国产成人一区二区三区精 | 国产小视频在线看 | 精区3d动漫一品二品精区 | 亚洲精品一 | 97视频人人澡人人爽 | 国产免费xxx | 精品欧美乱码久久久久久1区2区 | 中文字幕av亚洲精品一部二部 | 国产蜜臀| 久久久久亚洲 | 国产成人午夜电影网 | 欧美乱大交xxxxx另类电影 | 成人性视频免费网站 | 亚洲欧美精品在线观看 | 国产男人的天堂 | 精品国产亚洲一区二区三区大结局 |