成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從認知和邏輯思維的角度談談自然語言理解

人工智能
自然語言理解(NLU)是很難的問題, 從幾十年前AI誕生到現在, 語言理解一直都是AI一座無法攻克的冰山。

[[425002]]

自然語言理解(NLU)是很難的問題, 從幾十年前AI誕生到現在, 語言理解一直都是AI一座無法攻克的冰山。一方面, 語言是對我們所感知到的客觀世界的符號化, 就如同畫在原始人洞穴里那些似是而非的象形文字, 連接著每一個真實世界經常出現的事物。 另一方面, 語言是人類思維的載體, 它就像是自然產生的計算機程序,描述邏輯,因果, 事物運行的方式 。 

人類引以為傲的認知能力, 都是以語言為載體進行的。 這種能力包含與感知能力相對的對世界進行概念化,結構化, 預測推理等不同能力的總和, 通常以符號相互連接的某種圖結構表達。從這里看自然語言的理解, 其實就是要學習到單詞背后所指代的真實世界的概念,以及符號和符號之間所隱藏的人類認知的思維過程。

那么相應的要構建一個完全理解自然語言的模型, 顯然做到兩件事, 1, 它需要知道每個單詞背后概念的感知概念 (把“貓”的符號與背后的視覺概念做對齊, 類似多模態感知), 2 它需要真正掌握自然語言背后所蘊含的人類認知能力。 我們就先來關注一下后者。

假定一個完全沒有見過客觀世界的人, 在純粹文本的空間里翱翔,它是否可以學習到語言背后的所有人類認知呢?我們可以想象這樣一個具有無限記憶力, 可以在網絡空間任意窺視的爬蟲, 它可以不停的反復窺視和推敲文字的前后銜接, 來理解人是怎么思考這個世界的。它可能最終可以完美的猜測你說了一句話, 下一句你想說什么 , 這就是當下自然語言生成模型(如GPT)在做的事情了, 它是否具備了人類的認知能力呢?邏輯是人類認知最具有標志性的思維方式, 那么我們就先把認知等同于邏輯, 思考這樣的自然語言模型是否掌握邏輯認知。

我們可以根據知乎 甄景賢 的文章BERT 的邏輯化, 我對這個問題進行了梳理。 一個能夠在人類文本里肆意窺視并預測的爬蟲, 到底掌握了什么樣的能力呢?

這只生活在自然語言空間的爬蟲, 表面上在根據上下文回答問題, 但是其實質, 是對文章背后所反應的事實進行解釋和重構的過程。這點上, 語言作為一個符號和符號組成的結構, 本質上與一個概念圖對應, 而概念圖又對應真實世界的物理過程和社會事件。

如果把單詞看作是語言的單元, 那么單詞無非是被命名的概念(但不是一一映射的,某個單詞可以是多義的),而句子則是若干概念組成的事件圖。通常情況下句子都符合一定的語法, 語法的本質就是通常情況下概念和概念連接的方式。比如主謂賓形式對應一個三元組(某個主體產生一個動作于一個客體上, 例如小明吃蘋果),也就是兩個節點被一個邊相連的情況。 一個自然段落就是多個三元組一個個相繼出現的過程, 這些三元組描述的事件構成一個真實發生的過程,這些事件不是簡單的堆疊, 而是被上帝的針線精密的連接起來, 它就是邏輯。

邏輯的本質是結構化的思維過程。邏輯的古希臘語原型logos就是言語 。邏輯和因果關系緊密, 甚至有人認為二者幾乎一致, 我認為兩者的區別在于因果更關注真實性,是一種真實世界里的邏輯, 而邏輯在思維和符號的世界里, 只要具備自洽的結構, 不至于產生悖論,就可以成立,因此范圍更大。邏輯能夠匹配真實世界, 一定是因為它的結構構成符合某種自然造物的規律(想象一些世界就是一個由各種基本作用力構成的巨大網絡)。 

邏輯的推演過程一般分為indution(歸納), deduction(演繹)和abduction(溯因)。這三種分別負責連接結構的產生, 和基于這種結構的演化。Induction會從特例里建立一般的聯系。而deduction, 則根據現有的命題, 和已知的結構, 推出新的命題 。對這些推理步驟的反復應用 ,可以通過簡單的規則把非常遙遠的事實連接起來。

這樣來看, 這只自然語言世界的爬蟲至少掌握了兩件事 1, 語法構建 2, 事物和事物之間,事件和事件之間通過邏輯的連接關系。語言的生成過程本質就是一句話生成下一句話的過程,它體現語言背后的概念(事件圖結構)的相互作用, 而產生新的節點和邊的過程,這對應的就是邏輯推導。一個完美的生成自然語言的模型, 某種程度上確實具備了這樣的邏輯。

我們在說每句話的時候都在自覺不自覺的反應背后的邏輯思考過程, 比如”動物死了,深埋入土, 肉體分解,尸骨保留。“ 對著一連串的事件,幾乎前面一句都是后面一句的起因, 后一句都是前一句的導出結果。如果沒有這種前因后果的邏輯, 那就會讓人感到無法理解。

但是相比計算機程序,其實自然語言背后的邏輯更加難以理解和掌握。因為它有兩個缺點,一個是中間的大量結構化信息經常被省略(類似蘇格拉底 (是人, 人都會死)會死), 這也就是我們經常說的常識, 二是它的結構不一定是嚴謹的數學邏輯。

比如“我老婆覺得她的老板不夠聰明, 她要換工作了, 我很為她擔心“,這體現一個事件到事件根據基本規律進行推演的過程, 老板不聰明 - (老板不聰明 , 則公司沒有前途。公司沒有前途,則員工沒有前途) - 老婆(員工)換工作- (老婆換工作, 則面臨人生不確定性) - 我擔心她 。這是一個典型的deduction的過程, 但隱藏了大量的約定俗稱的常識, 表露在語言中的只是部分命題, 而大部分背后的推理結構是隱藏的,這也是自然語言難以理解的原因 ,我們需要不停的從只言片語里進行溯因, 從我們的記憶里找尋暗信息來解釋。

同時, 我們通常說某人說話沒有邏輯, 有人說話有邏輯, 這反應了語言本身并非精確的公理化的邏輯, 而且每個人背后的公理系統也不盡相同(雖然同處一個時代和文化的人應該大部分是相同的), 這是它和我們狹義理解的數學邏輯的一個區別, 更加接近一種非公理化的模糊邏輯。

因此, 這個能夠不停預測腦補下文的自然語言爬蟲并不簡單, 它不僅僅發現了一段文字背后隱藏的結構, 而且還需要不停的把文字里表露出的實體不停的和腦中常識結構進行綁定, 來處理這種模糊的邏輯。我們先說前者,這里面就包含了三種基本的運算, 一個是entity dection(實體概念提取), 一個是structure selection(結構選擇和匹配),一個是variable binding(將實體與結構綁定)。

entity detection可以從語言里根據語法得到主謂賓這樣的基礎結構, 從而發掘出單詞背后實際表達的概念(以經典的三段論蘇格拉底會死為例, 首先挖掘出蘇格拉底是人)。而variable binding可以把名詞和其背后的本體結構相綁定(人是一種會死的動物),從而進入演繹推理(蘇格拉底是人,所以會死),這就完成了理解, 當然也會關聯到一些新的命題(比如蘇格拉底要吃飯, 要喝水, 有七情六欲)。

這樣能夠完美預測下文的模型到底存在與否?答案是否定的, 但是我們的確在不停逼近這個答案, 而且走了一大步, 這一大步,就是transformer。我們用之前分析的觀點看看transformer模型結構, 會發現它的確是為理解自然語言而生的。我猜測self attention就像是為這幾個功能而生的。一個句子進來, 它首先被離散化成一個個單詞token的集合,然后 Q,K,V就像是指針一樣, 將這些單詞實體映射到背后的概念,實現實體的識別和概念的綁定, 而 

則通過累加和乘積的形式,實現文中概念和概念的一個全連接圖, 它代表了所有可能的命題結構(主謂賓), 并最終得到新的一組可能的命題結構, 通過后面的全連接層(類似一個命題結構的詞典),得到新的命題(句子)。 通過層數的增加, transformer可以組合得到從簡單到復雜邏輯的嵌套結構,也就是實現全文級別的推理。

Attention is all you need

Transformer Feed-Forward Layers Are Key-Value Memories

Attention is all you need

GPT-3 在文本的生成上已經越來越以假亂真,但是有些時候卻依然像是兒童的臆語,而非嚴謹的成人語言, 這個關鍵差距在哪里呢?就是剛剛講的單純的人類語料往往是一種模糊的邏輯, 中間欠缺大量信息, 推理也不嚴格。 如 果要讓它在掌握人類的認知上再進一步, 就需要把這種嚴格的常識邏輯補回來, 而不能僅僅是語言概率建模。

事實上常識邏輯這條線AI系統早已為之,從經典的圖算法到GNN這類的深度學習算法。從一開始依賴于規則做問答到后面用GNN在知識圖譜上學習規則。從AI產生的初始階段,人們的目標就是制造一個通用解決問題的具有邏輯的系統, 也就是當下我們說的AGI。

由于無法解決最一般的問題, 這一分支的努力很快便成了細分領域的專家系統。它們采用符號來描述專家知識,并以三元組,類似知識圖譜的形式存儲, 并根據一定的條件執行推理。它們的弱點是學習不容易, 靈活性較差, 維護成本高,而且, 就像剛剛討論的, 人所使用更多的是一種模糊邏輯而非嚴格的數學公理邏輯。當然, 也有一些另類的努力, 做的就兼容了這些特性。比如王培教授的NARS系統。它是一套可以學習演化的非公理化的邏輯機器, 可以執行一般性的命題推理。 并且通過模擬人腦認知的不同特點, 比如事件認知, 目標行動認知,情緒自我認知,實現推理基礎上的行為控制。

NARS系統的特點是任何一個自然語言的句子, 都被理解為一個主謂賓的命題結構, 并且作為一個證據進行歸納, 增加公理系統的一條新的邊, 或對已有的邊進行更新。比如說企鵝會游泳, 它會自動的推演南極的企鵝會游泳,但也會推倒出鳥類會游泳,只是前者的置信度高,后者的置信度低。因此它在接受一個自然語言的證據后,會同時使用induction, deduction和abduction形成新的命題,某種程度類似人類的類比和聯想能力。

我們來看如何借鑒這條路線的工作加強NLU自然語言理解:

(1) NLP與常識圖的結合

我們知道大規模預訓練自然語言模型如bert和gpt已經蘊含了大量的語言結構信息, 如語法, 和蘊藏在語言里的概念和概念間的關聯。既然純粹自然語言包含大量隱含常識,我們自然會想到以某種方式補充,比如知識圖譜。這就如同我們的大腦會用長期記憶里的概念常識去詮釋語言文字,從而將文字的概念與記憶中的模型對齊來實現理解。通過知識圖譜來增加語言文字的信息也就成為一個NLU很重要的方向, 在這個過程里, 每個單詞被選擇讀取, 它背后關聯的概念常識也可以同時進行展開, 一種最簡單直接的方法,當然是直接將kg和自然語言模型融合, 如K-Bert

K-BERT: Enabling Language Representation with Knowledge Graph

有些則需要加入融合的embedding。將知識圖譜的內容通過預訓練形成其隱式編碼, 在進入到自然語言模型的text decoder 。這些知識圖譜里的知識就像外掛一樣可以被加載和讀取。

KG-BART: Knowledge Graph-Augmented BART for Generative Commonsense Reasoning

也有一些則更融合的更為徹底, 把對文本的encoding和對圖的encoding先分別執行, 再融合, 使語言序列可以時刻關系到其背后的概念網絡:

Knowledge-Aware Procedural Text Understanding withMulti-Stage Training

(2) NLP與邏輯規則的結合

那么除了規則, 現實的induction, deduction, abduction 的邏輯法則能否幫助NLP的文章理解呢?當然可以。很多面向任務扽對話系統就是這樣的例子。

首先通過意圖識別找到人類語言背后的真實原因, 然后通過一個belief tracker不停的在對話中尋找用戶可能的狀態, 并選擇需要執行的干預, 最終通過generation network啊這種干預轉化為自然的語言和用戶進行交互,引導客戶完成目標。這就很靈活的把邏輯結構放入到了自然語言生成中。

最后總結下:

NLP理解問題的本質是( 1)概念定位 (2)合理的潛入某個符合邏輯的內部結構(3)讓這種結構最自洽的解釋文本中出現的所有單詞。

NLP生成問題背后的本質是 (1)概念定位 (2)挑選合理的邏輯規則和結構 (3)進行推理進行生成新的邏輯statement (4)翻譯成表象的語言形式 。

這兩者其實需要的結構類似,一個好的生成模型應該也具備好的理解力。

當然這些角度依然是拋磚引玉, 如何把兩者真正融合, 讓自然語言模型的靈活性補其之前的邏輯系統, 而邏輯系統的嚴格性,常識的穩定性控制自然語言模型, 是一條意義極為深遠的道路。

責任編輯:張燕妮 來源: 混沌巡洋艦
相關推薦

2009-06-22 13:48:00

Java編程思想面向對象

2013-05-27 15:57:36

邏輯思維

2021-08-17 15:47:12

機器學習自然語言神經網絡

2023-09-03 14:07:01

自然語言處理人工智能

2021-01-19 22:38:59

人工智能語言人臉識別

2014-11-17 17:37:13

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2021-05-13 07:17:13

Snownlp自然語言處理庫

2017-11-17 08:27:47

谷歌自然語言框架

2017-10-19 17:05:58

深度學習自然語言

2024-04-24 11:38:46

語言模型NLP人工智能

2009-11-25 14:25:14

PHP自然語言排序

2024-02-05 14:18:07

自然語言處理

2021-05-17 09:00:00

自然語言人工智能技術

2010-07-09 10:13:42

UDP協議

2021-03-26 11:02:20

Python自然語言API

2017-04-17 15:03:16

Python自然語言處理

2017-05-05 15:34:49

自然語言處理

2020-02-25 23:28:50

工具代碼開發

2020-02-25 12:00:53

自然語言開源工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美成人精品在线观看 | 亚洲激情视频在线 | 91精品国产91久久久久游泳池 | 久久久久久国产精品 | 久久大| 久久久久久久久久久久久九 | 国产精品视频久久 | 手机在线不卡av | 日批的视频 | 午夜影视大全 | 亚洲精品资源 | 91免费小视频 | 欧美看片 | 亚洲一区av在线 | 日韩精品色网 | 一区二区三区在线播放视频 | 午夜综合 | 日本不卡视频在线播放 | 久久国产精品首页 | 国产精品视频一区二区三区四区国 | 久久久视频在线 | 91精品一区二区三区久久久久 | 国产精品一区在线观看 | 午夜影院 | 91视频免费视频 | 一区二区精品电影 | 日本一区二区三区四区 | 欧美三级三级三级爽爽爽 | 午夜视频在线观看一区二区 | 天天草天天射 | 欧美电影免费网站 | 欧美日韩在线视频一区二区 | 国产成人jvid在线播放 | 国产亚洲一区二区三区 | 好姑娘影视在线观看高清 | 四虎影院免费在线播放 | 黄色在线免费观看 | www.奇米| 欧美jizzhd精品欧美巨大免费 | 日本大香伊一区二区三区 | 欧美淫|