三角獸亓超:如何消除機器對人類的誤解
原創【51CTO.com原創稿件】2017年7月21日-22日,由51CTO主辦的以人工智能為主題的WOTI2017全球創新技術峰會在北京富力萬麗酒店隆重舉行。峰會期間,30+AI明星,數十場圍繞人工智能主題的精彩演講與圓桌論壇緩緩揭開面紗。除了場內的精彩演講,場外還有專門為AI愛好者搭建的動手實驗室和科技體驗區,這一切都讓本次大會亮點十足。
7月21日下午WOTI2017主會場,三角獸聯合創始人&CTO亓超進行了主題為《如何消除機器對人類的誤解》的精彩演講。以下是演講實錄,讓我們先睹為快!
三角獸聯合創始人&CTO亓超
大家好,我是亓超。三角獸公司的名字特別奇怪,這個名字來自于我們三個創始人,我們三個是相對互補的團隊,其中一位,我們倆都是百度的同事,還有一位負責品牌宣傳,之前在安利中國、奧美公關工作。我們希望解決的問題是語義部分,涉及到人機交互系統面臨的問題,今天的主題希望從技術方面分享,因為我覺得CTO主要責任是解釋技術的問題,把握技術的方向等等內容。
人機交互的事情并不是特別新的話題,希望人能夠和機器自由對話,讓機器理解人類語言,執行人類下達的任務,或者說跟它有一些更自然的溝通。所以從歷史上來說,經歷了許多起起落落,在AI行業,特別是最近幾年有幾次波峰和波谷的狀態。最近幾次,語音技術的突破,語音識別和合成質量比之前高很多,之后帶動了一波語音助手產品出現,隨之大家意識到這種產品慢慢從市場逐漸的消亡掉,變成了低落時期。隨著近幾年發展又出現更多產品,市場有抬頭趨勢,特別是最近國家發布了戰略目標,把AI技術,或者說這種概念,往上帶動,隨之有很多產品出現,比如微軟小冰、百度糯米等等產品。
主要由幾部分構成,第一部分是自由的和人類對話,所有不能理解和不能捕獲的語言都會拋出一個自然搜索的結果,這是對對話過程的中斷。而且,自然的溝通免不了要有一些無目的的、無任務驅動的聊天過程。所以在這里,必要的一個方面是像人一樣能夠更順暢的和人進行開放領域的聊天對話。第二部分是作為機器人,作為某一方面或者某一領域的工具來講,它還要給人類提供一些服務或者信息,包括問答的技能,或者說我要幫你達成訂餐、訂機票的服務功能。還有主動行為,因為智能汽車不光體現在應答,還體現在主動方面,能夠理解你,同時推送你希望獲取的信息或者希望獲取的服務。
整個人機交互系統涉及的技術模塊非常多,可以認為是自然語言處理或者相關的技術大集成,作為整體技術的出口呈現。這張圖想表達從底下往上是逐步集成的過程,最底層設計的技術包括深度學習,強化學習,還有自然語言處理的基本技術,這個作為基礎的模塊,需要系統里必須打造成非常好的強壯的基礎。另外涉及到語義和信息檢索,讓機器去理解人類的語言,免不了要教他內容,或者學知識,這些知識的來源通過數據實現,我們要做很多數據挖掘的工作。
從下往上看第二層,技術組合模塊,包括自然語言理解,決策過程,推薦,還有知識庫,還有計劃的推論,或者分類聚類以及情感的分析,這些都是對話機器人不可缺少的模塊。淺綠色部分是集成,形成子系統,包括開放領域的聊天系統,基于檢索的問答系統,基于結構化數據的檢索系統,還有任務驅動的對話系統。希望它能夠更清楚理解用戶狀態,我們需要借助用戶信息用戶模型的技術,對人實現個性化的體現更好。最后是主題推薦。再往上層是系統API層面的集成,把子系統分裝成對外服務,展示成不同硬件或者不同的產品形態。這里強調幾個方面,和大家分享一下三角獸人機交互系統對主要方向的理解。
第一個是人機交互聊天,他希望機器表現的更像人,具有和人無限領域的對話,就像你的朋友,可以和你聊一些他感興趣、你也感興趣的話題。這里涉及的方方面面很多,包括無目的聊天和有任務驅動的系統,需要一個控制模塊,能夠把這些內容和系統集成在一起,并且能夠做輔助決策,這個決策舉一個例子。比如用戶說了蘋果這句話,它的意義很多,有可能是范冰冰演的電影,也可能是一個水果,通過電商渠道購買的商品;可能是一個公司,他希望了解蘋果公司的新聞;到底該是哪個服務來完成,需要控制,整合聊天的事,對話的上下關系,以及用戶的興趣點,最終決策出一個真正應該響應的問題。這里就是我們開放語對話,在你沒有這種驅動的時候整個對話往下順暢進行,當你沒有辦法決策出我應該往哪個服務進行,又不希望你的對話表露尷尬,開放語聊天起的很大作用是順暢整個對話過程,引導出更多的信息需求和服務需求,滿足這樣的基礎。
我們之前做度秘、小冰這樣產品的時候有幾個數據可以看到,70%以上用戶的PV屬于開放聊天對話,這里是人機對話系統做的很好的標準,自由開放的對話能力。有很多種實現方式,在產品間使用最好的方式是基于檢索,基于檢索分成大概兩部分內容實現。第一部分是PPT最下方,我們需要從互聯網公開資料獲取大量文本,來自于人和人日常對話,通過深度學習和機器學習的手段,來完成人和人之間發生對話,人和人之間的對話是必要的手段,我們這里也下很大精力去挖掘數據,我們現在積累的是500億(英文),來自于社區、論壇。這些語料我們需要清洗,把人與人之間對話隱私數據洗掉,變成可以用來直接在系統使用的數據。在線上的時候,我們會用各種模型和算法擬合這個數據,當用戶發一個問題給機器人的時候,我們找歷史上某一個人說的非常相似的話,同時把對方回復的話作為信息的特征,變成一個可以用來回復的后續。
另外一個方法在學術界比較流行的方法,跟剛才的區別是,系統里面需要一個大的搜索引擎,或者語料檢索系統,搜索人和人之間的對話哪句相似,把剛才的語料在線下搜索出概率模型,一般我們用深度學習比較重要的兩個模型,去擬合數據,線上不需要檢索這個過程,而是一個詞一個詞生成我們應該回復的話。
剛才聊的話題屬于有無目的的驅動對話,像你和朋友之間的聊天范疇。還有一種對話方式是有目的的,比如訂票,或者完成點餐操作的機器人,這種機器人對話是有任務目的驅動的。我們希望聊的時間越長越好,機器人和人能夠無縫交流,這里有幾個產品給大家。像度秘聊天系統最好的是一個男孩子兩個月和它聊過兩萬多句,這兩萬多句能夠挖掘出很多工具里沒有體驗到的數據或者用戶的個性化特點。另外,機器人最終要服務于人,這部分希望越來越好,好比我去餐廳點菜,我不希望和餐廳服務員進行多輪對話,我希望越快越好,點菜完成就好。這個過程中我希望以最短路徑實現,另外一種不同架構方式,分成大概四個部分。
第一個是我們要理解對方說話的意思,這里包含兩個部分,一個是我要了解這句話的意圖,比如訂票,或者希望查一條信息,這個意圖分析出來之后,我們需要在該意圖之下分析表象,比如北京到上海的飛機票。第二個是為了完成任務,我們需要收集不同種類的狀態,比如訂機票,我們還要獲取他希望訂什么時間的機票,這個情況下我們要維護一個狀態,收集的集合,看我們現在已經收集的狀態,是不是足夠完成這個任務,如果不足夠的話,第三階段就同時做出一個策略,去詢問澄清或者直接展示某一個結果。第四個是機器人回復,有任務驅動的機器人一般是通過產品經理設計,通過模板這樣的方式去生成回復的話。
以上是兩類機器人,一個是有任務驅動的機器人,一個是無任務驅動的機器人,對話機器人實現的方式。反過來,比較抽象,我們怎么評判一個機器人,它好還是壞?下面舉幾個例子,把剛才不同種類的機器人做一個對比。
第一個,我們先對開放機器人做對比,我們希望一個機器人,它的對話首先是相關的,你說吃飯了嗎,他告訴你我還不困,這樣的對話是沒辦法持續下去的,所以相關性是需要衡量的。在此基礎上,需要討論趣味性,即使對方是個人,你也很有可能出現聊不下去的情況,比如他總呵呵,或者總讓你喝熱水,這樣的話一個正常人也沒辦法讓對話進行下去,所以趣味性也是維持對話的質量標準和因素。再是滿意度,如果每句話都聊的相關也有趣,但整體像神經質的人,東一句西一句幫你做牽扯,這個體驗也不好。所以要衡量自然度和順暢度。第三是用戶活躍度,從兩方面衡量,第一個是每個人平均給機器人對話多少輪,第二個是同樣用戶平均來多少次,用戶平均對話次數,以此來評判機器人好壞。
這是相關不相關、趣味不趣味的例子,人工方式打分,聊天機器人偏主觀,仁者見仁,智者見智,所以一般這樣的評估會采用多人共同去打同樣的數據,這樣的評估方式,最終取一個平均分。順暢度、自然度也是主觀打分。這是一些例子,越高的分越好,越低的分越不好,當一個機器人每一句話都清楚,但每一句話所說的內容都不是你喜歡的,你對這個機器人的印象肯定也很低,所以這里有一個主觀打分。這是對客觀數據的舉例。
另一方面,對任務驅動的對話評估系統分為四個維度,第一個是意圖識別維度,準不準。第二個是召回情況。第三個是policy完成情況,當這個任務需要多輪完成,這樣的系統肯定打分比較低。另外一個,沒有幫你完成對話目標,這是非常重要的因素。第四個是自然語言生成,看可理解的程度和自然度。舉一個例子,在意圖識別這塊,來首劉德華的歌,這是作為正例,負例是你喜歡劉德華嗎,這兩句話都提到了歌手的名字,但第一句話是希望找到這首歌嗎,是正確的,第二個是開放的問題。槽粒度的召回率和準確率,比如來首劉德華的今天,我雖然能夠理解他找首歌的意圖,但如果把今天放在前面,今天來首劉德華的,意思就完全不一樣了。這里要評估的是這樣的情況,如果我們希望正確播出這首歌的話,我們需要解析出歌手是劉德華,今天是這首歌的項目,如果都解析出來就是對的。
這個舉例還是在找歌的意圖下,我們希望交互過程能夠順利完成的任務,第一個例子認為完成率是已經達成,系統會播出這首歌,非常好。下邊的對話是說了很多次他也沒有理解,最終用戶放棄了,交互以失敗為告終,這是任務未完成的舉例。右邊是判斷完成的情況,一輪是我們最希望看到的情況,如果系統和用戶交互非常多輪,這個時候用戶基本上會失去耐心,我們看到很多音箱也好,車載交互方式,都會讓人很尷尬的狀態,你說很多次他都沒有分析出來,讓你失去了耐心,下次再使用的概率就很小了。
以上是我們對人機對話領域的拆解,包括一些技術實現的方式和舉例,這塊展開來講可能需要花很長時間,今天也是拋磚引玉,給大家做這樣一個討論。
三角獸在這方面一直在做落地解決方案,首先是toB,我們的合作方目前來說有PPT上的這些羅列,當然這個不全,我們包括幾大領域,硬件方面,除了手機也包括智能音箱,還有小米電視這些解決方案。另外是跟一些企業合作,例如商場,媒體,一起打造機器人。另外,我們和BAT公司也有很好的合作,現在和阿里、騰訊、百度都有聊天對話系統。
可能大家了解三角獸是從老羅那個發布會,我們錯被叫成獨角獸,老羅當場也做了修正,我們并沒有給手機植入整體對話解決方案,而是把對話的分詞模塊嵌入到里面,最近這個事又重新炒起來了。我們進行了語義片段解析,很多大塊模塊超過詞的范疇,三角獸作為手機本地解決方案,盡可能用非常小的手機資源完成最小的切入準確率。今年3月份,們首次在小米電視發布會上植入了語義交互系統,我們解決了用戶在使用小米電視時通過語音方式找到他想看的電視資源。
小米電視作為互聯網電視他已經有了更多承載的內容資源,不太像我們小時候看電視幾十個頻道用一個遙控器就能解決,現在成千上百萬的電視資源,語音交互是很好的體驗,我們又不希望只是做一個遙控器,如果只是做一個遙控器是語音廠商就能解決的問題,我們需要解決的是用戶在找電影、電視劇的時候,經常記不住一個電影的名字,或者沒有辦法記住全稱,比如《肖申克的救贖》,大部分搜肖申克。還有的沒辦法記住正確的名字,比如英劇《神探夏洛克》,但很多人會把它叫神探夏洛特,如果不加語義理解可能就會變成《夏洛特的煩惱》。所以我們在小米解決方案上會解決兩個問題,當你記不住電影的名字,或者記不住準確完整的電影名字的時候,我幫你語義糾錯。另外,就像男人和女人逛商場不一樣的角度,很多人是直指目標,很多人是瀏覽行為,我們需要借助數據挖掘技術,把電影打上標簽,然后加上語義理解,這個場景下解決,我希望找到一部奧斯卡里男主角非常帥的電影,來自用戶電影的影評,來自粉絲對貼吧的討論,我們把電影加入豐富的文本表示,在線上做語義匹配理解,找到他可能想要的電影范圍,然后由他做進一步的選擇。
這個是我們另外一個的合作落地,是香港新世界集團,這里想打造一個場景,商場一樓咨詢臺變成移動咨詢臺,因為每次去商場我都有個困惑,我希望找的商戶經常沒有辦法找到準確位置,甚至要去問服務員,甚至廁所在哪都要問。這個時候就希望有個隨身帶著的咨詢臺,問有關商場的問題,甚至幫我引導出我的興趣點。從左往右不同對話的機器人,你可以隨便聊天,像小冰一樣,幫你解決問題并對話順暢。第二個是咨詢類對話,包括怎么停車、營業時間等等跟商場有關的信息問答。第三個著重解決兩個場景,一個是餐飲推薦,另外是零售導購,它希望幫你解決當你不知道這個商場有什么餐廳,但你又有吃飯需求的時候,我們幫你推薦餐館,這樣的機器人,加微信公眾號,能夠給購物帶來新的體驗。以上是我今天分享的所有內容,謝謝大家!
51CTO記者將持續為您帶來WOTI2017全球創新技術峰會前方精彩報道,敬請期待!
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】