成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

表征學習:為自然語言而生的高級深度學習

原創
人工智能 深度學習
在高級機器學習領域中,表征學習(Representation Learning)處理自然語言的優勢是無可爭辯的。在深度學習規模和計算的影響下,表征學習在人工智能領域取得了一系列的成就,不僅包括處理人類語言,而且涉及到統計人工智能的方面。

通過半監督學習和自我監督學習的某些特征,表征學習大大減少了訓練模型所需的數據量,更重要的是,它更加重視阻礙傳統監督學習中帶注釋的訓練數據。

它也促進了多任務學習(multitask learning)、零次學習(zero-shot learning)、流形布局技術(manifold layout techniques)和數據倍數概念(data multiple concept)等技術的發展,成為連接這些技術的基石。上面提到的這些技術對深度學習在自然語言技術中的應用產生了巨大價值和重大影響。

由于表征學習,不僅使自然語言處理更快、更易于組織使用,而且更適用于廣泛的用例,而這些用例在表征學習出現之前是無法實現的。

“這些是我們在 Indico 使用的技術,谷歌、Facebook 等其他組織顯然也在使用這些技術,” Indico Data首席技術官 Slater Victoroff 如是說。“但是,表征學習在這些組織中只是小范圍使用,同時使用效果和理想也相差甚遠,在具體應用方面也是困難重重,并不能代表機器學習的主流。”

但是,如果用發展的眼光看問題,為了獲取長遠受益,他們必須現在就行動起來。

字節對編碼(byte pair encoder)

從廣義上講,表征學習的工作方式與鍵值對的概念沒有什么不同。它使用類似于密鑰的字節對編碼,Victoroff 觀察到,每個鍵都有一個表示它的數值,“就像字典或查找表一樣”。字節對編碼是表征學習的核心內容,字節對編碼是為語言中“有意義的塊”(meaningful chunks)而生成的。例如:“'ing [ing] space' 可能是一個塊,或者'space um [um]' 可能是一個塊,”同時,Victoroff 提到字節對編碼時如是說:“每個塊大約是 1 到 10 個字母長度……大多數情況下是 1 到 3 個字母長。”

這種學習模式有兩個值得注意的地方。首先是它的語言價值,對于單詞來說,表征可以識別:這些事物是否是同義詞?這些東西在語義上是否相關?這些東西在句法上是否有聯系。其次,這種表征可以針對單個單詞、句子甚至段落,以及用戶需求提供更多的應用場景。

零次學習(zero-shot learning)

表征學習以多種方式對深度學習產生深遠影響,其中最值得注意的是減少了訓練數據(標記)的數量,這恰恰是高級機器學習模型提升準確率的必備條件。“如果你的表示足夠好,你可以用來制作模型,他們稱之為零次學習(zero-shot learning),”Victoroff 指出。使用這種技術,數據科學家可以利用標簽作為訓練模型的唯一示例。

例如,在構建預測飛機模型時,統計 AI 的方法會使用“airplane as your one example”這個標簽,然后得出推論:“a few shots,[a] single shot。”其結果存在各種各樣的變化。 這一原則會提升企業在自然語言應用領域的適用性,因為大多數高級機器學習用例都需要高標準的訓練數據,而這一點往往令人望而卻步。

多任務學習(multitask learning)

如果說減少訓練數據是表征學習相對于深度學習應用模式的突破,那么另一個突破就是多個任務訓練模型。借助更廣泛使用的監督和非監督學習方法,即使針對特定模型的機器學習任務(例如在針對銷售用例進行訓練之后,再對營銷數據執行智能處理以及自動化的實體提取),建模者再一次使用相關任務時也必須從頭開始創建新模型。以表征學習、多任務學習為基礎可能會使這種方式成為過去。

“假設你對【情感分析】創建一個模型任務,同時為【文本分析】創建第二個模型任務,如果想要知道這兩個模型之間的關聯,就可以針對一個模型創建兩個任務進行訓練,兩個任務共享一個模型,關聯任務通過共享信息,相互補充,提升彼此的表現。”Victoroff 指出。

這種做法對模型使用效率的提高以及對自然語言分析的價值是顯而易見的。建模的執行多任務處理能力在基于向量的 NLP(自然語言處理 Natural Language Processing)領域中得到了充分的認可。在一些競賽中就要求模型必須解決 10 種不同類型的 NLP 問題,并且有證據表明模型實際上可以將從一項 NLP 任務(例如理解一門外語)中學到的知識應用到另一項 NLP 任務中,以理解英語為例“我們可以證明這種方式創建的 [模型] 正在跨語言交叉學習中利用了更多的信息,”Victoroff 評論道。“這種現象被稱為伸縮效應。例如在訓練機器學習英文之后,再訓練其學習中文,會比一開始就直接訓練機器學習中文要容易得多。“

數據倍數(data multiple)

“better”這個詞表達的含義具有相對性,因此針對不同的人具有不同的含義,而含義取決于通過 NLP 實現的目標。現實情況是,從深度學習的計算能力以及可擴展性方面來看,只要數據量足夠大,即使是糟糕的深度神經網絡也可以達到較好的效果。然而,數據倍數原則是在數據量不大的情況下集中于精確定位,提升評估模型性能從而讓深度神經網絡達到好的效果。正如Victoroff提到的,對于特定模型而言可以明顯看到,“在 100 個數據點上的工作情況如何;在 1,000 個數據點上的工作情況如何;在 10,000 個數據點上的效果如何?”

Victoroff 指出,高級機器學習模型的性能取決于數據倍數,對于上述表征學習技術(數據倍數),通常可以達到“至少 2 到 4 倍的數據倍數”。Victoroff 指出,“模型的4倍數據倍數就意味著該模型的形成減少了 4 倍的訓練數據量”。使用數據倍數方式建模,可以在數據量不夠的情況下達到相對滿意的效果。用Victoroff的話就是“利用你手上現有的數據就可以達到幾乎翻倍的準確性。”

流形布局技術(manifold layout techniques)

對于自然語言技術而言,其表征就是一個數字列表,數據科學家可以應用不同的數學概念來讓機器理解單詞的含義。在自然語言處理中可以通過One-hot方式將詞用數字列表的方式表示,這個數字列表可以想象成一個詞典,需要處理的自然語言內容越多,這個列表就越大。每個詞的表示都需要通過一個很大的數字列表來完成,這樣生成的向量維度高也稀疏,使計算效率大打折扣。因此,可以通過流形布局技術將數字列表中創造意義的部分,轉移到嵌入(Embedding)中,也就是將高維空間的數據轉換到低維空間。

嵌入(Embedding)是一個將離散變量轉化為連續向量的方式,它不光可以減少離散變量的空間維數,也可以有意義的表示該變量。Victoroff 透露,嵌入(Embedding)是一種將表征置于明確結構中的方法,在這個過程中為這些表征賦予意義。流形是自然語言技術中最受歡迎的嵌入類型之一,因為它們具有“其他結構可能沒有的東西,就是距離的概念。”Victoroff 透露。

距離,對于高級機器學習模型在語言精細理解領域至關重要。根據 Victoroff 的說法,“當你閱讀一個句子時,存在同義詞和反義詞以及解析樹的概念。可以把詞與詞之間的關系看成是距離,所以我們有了這個距離的概念:兩個物體。” 流形就是在做降維的事情,允許表征從高維空間更容易地轉換到低維空間。

編者:這里需要解釋一下流形做的事情。加入一個二維空間,兩個點之間的距離通過兩個點的x、y的坐標就可以算出來。如果一個多維空間例如一個地球儀上面有兩個點,需要知道這兩個點的距離,就必須用一個軟尺連接兩個點,獲取距離。而錯誤的計算方式,就是用一根線切過地球表面連接兩個點。

流形布局測量的距離,就好像這一把軟尺,順著地球的表面量兩點的距離。在神經網絡的多維空間中測量兩個點的距離的時候就需要用到這個技術,我們可以把這兩個點想象成兩個詞,距離就是兩個詞的關系。離得近說明詞的含義相近,如下圖所示。同時Embedding 還做了一個事情就是降維,將高維的向量變成低維的,容易分析和展示。

成長與發展

深度學習空間正在繼續快速增長。表征學習可以減少自然語言技術應用中訓練數據數量,并提升訓練效率。同時使多任務學習的底層模型效用多樣化。其結果是組織可以通過這些模型實現更多目標,減少構建它們所需的時間和精力,并且提高它們在 NLP 或其他應用場景中的準確性。

作者介紹

崔皓,??51CTO社區編輯??,資深架構師,擁有18年的軟件開發和架構經驗,10年分布式架構經驗。曾任惠普技術專家。樂于分享,撰寫了很多熱門技術文章,閱讀量超過60萬。??《分布式架構原理與實踐》??作者。

參考

https://insidebigdata.com/2022/02/04/elite-deep-learning-for-natural-language-technologies-representation-learning/

https://www.jiqizhixin.com/articles/2019-03-27-7

https://www.zhihu.com/question/32275069

https://zhuanlan.zhihu.com/p/46016518


責任編輯:華軒 來源: 51CTO
相關推薦

2017-04-10 16:15:55

人工智能深度學習應用

2017-10-19 17:05:58

深度學習自然語言

2017-05-05 15:34:49

自然語言處理

2017-08-23 09:36:21

2017-07-28 10:20:47

深度學習自然語言神經機器

2021-08-17 15:47:12

機器學習自然語言神經網絡

2017-01-12 16:13:28

自然語言深度學習系統

2017-02-20 14:12:49

自然語言處理研究

2017-07-28 15:45:43

深度學習自然語言神經網絡

2019-10-16 14:10:24

人工智能深度學習技術

2018-08-05 07:50:22

自然語言Word2Vec深度學習

2020-09-27 10:22:20

機器學習人工智能計算機

2024-12-09 08:45:00

模型AI

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2021-05-13 07:17:13

Snownlp自然語言處理庫

2022-05-18 18:31:28

機器人自然語言編程

2024-04-24 11:38:46

語言模型NLP人工智能

2009-11-25 14:25:14

PHP自然語言排序

2024-02-05 14:18:07

自然語言處理

2021-05-17 09:00:00

自然語言人工智能技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: jav成人av免费播放 | 国产福利一区二区 | 男女搞网站 | 午夜成人免费视频 | 自拍偷拍视频网 | 精品真实国产乱文在线 | 欧美一级久久 | 成人免费xxxxx在线视频 | 国产精品免费一区二区三区四区 | 精久久久 | 欧美精品一区二区三区在线播放 | 观看av | 亚洲精品一区二区三区蜜桃久 | 欧美成人高清视频 | 欧美三区在线观看 | 三级成人片| 麻豆久久久久久 | 精品在线免费看 | 亚洲高清一区二区三区 | 四虎在线观看 | 欧美一区视频在线 | 黄色永久免费 | av中文字幕在线观看 | 黄网站免费观看 | 亚州综合在线 | 国产在线精品一区 | www.婷婷亚洲基地 | 欧美在线综合 | 亚洲国产精品99久久久久久久久 | 成人动漫视频网站 | 99re99| 亚洲精品视频在线观看视频 | 久久之精品 | 欧美精品网站 | 99国内精品久久久久久久 | 国产精品久久久久久av公交车 | 四虎永久在线精品免费一区二 | 成人精品啪啪欧美成 | 成人午夜毛片 | 国产精品视频一区二区三区 | 精品国产乱码久久久 |