深度學習VS深度克隆,誰才是解決聊天機器人的更好方法?
編者按:聊天機器人已經不新鮮了,Facebook、微軟等很多大平臺都有了自己聊天機器人,但是聊天機器人的發展好像遇到了瓶頸,本文作者 Riza C. Berkan 博士從深層的技術角度探討如何解決聊天機器人領域面臨的問題。
對話式 AI (聊天機器人)涉及到三個維度的問題:(1)語言技能(2)知識獲取(3)對話行為。 這三者雖然強相關,但人類大腦通過單獨的實驗,在不同的時間段內,可能使用不同的神經區域來獲得這些優點。 因此,開發整個過程的計算機模型也需要一些單獨的處理和分布式方法。
深度學習提供了一個看上去可行的模型。 但是,它會在一個單一的模式下將所有數據都集成到大量的數據需求中。 這也與我們如何通過閱讀學習相矛盾。和深度學習不同,我們每次閱讀新文章時,顯然不會重新學習語言技能。語言和知識能否分開處理,使后者的成長不需要與前者混合? 如果可行,我們如何模擬這種半獨立性?
我將介紹一種新的方法,稱為深度克隆方法(DCM)。 雖然這些技術細節是專有的(正在申請專利),但是這種方法可能還有許多其他變體值得試驗。
深度克隆
DCM是專門為對話式AI 設計的新的機器學習方法。 術語“深度”來自其多層架構。 術語“克隆”是指將知識從其原始域傳送到會話系統(將文檔轉換為聊天記錄)。 DCM將(1)語言技能與(2)知識獲取分離,但不涉及(3)單獨對待的對話行為。 DCM的靈感來源于人腦的閱讀過程,通過閱讀(無監督)直接完成學習,而不是涉及語言實驗(受監督)。 DCM通過句子處理給定的內容句子,將每個句子分解為概念,并通過大量網絡學習這些概念如何相互關聯。 已經使用這種方法開發了一些示例聊天機器人,只有通過編輯才能輸入DCM要讀取的內容。 以下是深度克隆與深度學習的對比:
神經元結構
DCM的核心創新是人造語言神經元的概念。 這個想法是從生物學的靈感來的,大腦的某些區域已知含有對語言輸入敏感的神經元,正如其他區域對圖像或其他感官敏感一樣。 此外,語言敏感的神經元也可能具有語言角色兼容的不同結構。
另一方面,深度學習無論對哪種應用都使用同的神經元,典型的神經元如下圖所示。在不同網絡中有神經元模型的變化,然而沒有涉及歸因于自然語言處理的任何特定角色。 這些神經元需要一個數字輸入,用于從輸入層傳播。 因此自然語言必須轉換為數值,以使此操作正常工作,而且根據這種方法,這個轉換可能是無意義的。
在DCM中,通過分解過程確定了六種不同的神經元類型。 黑色神經元代表內容(句子),紅色神經元代表事件概念,藍色神經元代表對象(對話主題)。綠色神經元代表每個句子的類型(維度),最終幫助黑色神經元回答問題。
網絡結構
通過閱讀每個句子并使連接遵循一組特定規則,DCM網絡得到成長。 第一條規則是重復相似神經元的連接。 這個規則的唯一例外是遵循內容跟蹤的黑色神經元。 第二條規則是事件與對象的連接(紅色到藍色)。 網絡的增長與系統讀取的內容成正比。
閱讀整個內容后,最終網絡成為多個層級,多個網絡(稱為高速公路)。 基本上有四條主要公路(黑色、紅色、藍色和橙色)。 進一步處理最終網絡以將重復神經元壓縮成單獨的神經元。 這個最終過程產生一個基于事件的本體,其中每個事件概念都連接到大量的儀器上。 召回過程需要橫穿4條高速公路,才能找到給定問題(或句子)的最佳匹配概念。通過推理找到最終的黑色神經元作為問題的答案。
總結
以下是深度學習與深度克隆的對比:
- 深度學習具有不分解作為需要本體論處理的單獨步驟的優點。
- 深度克隆取決于分解過程的質量。
- 深度克隆具有數據量小和單步收斂的優點。
- 深度學習是一個黑盒子,而深度克隆是透明的,可以立即修改。
深度克隆的數據要求只是內容知識,而深度學習可能需要大量的數據用于語言檢測和較長的訓練周期。