智能客服閑聊模塊三種方案對比,你喜歡哪一種?
當前市場上智能客服及其NLP領域,閑聊模塊是其非常重要的研究領域。目前業界針對于閑聊模塊的方案一般以下三個方案:
基于固定模板
我們都知道業務問答通用方案是基于模板式問答,同理模板式問答也適用于閑聊系統,這種方式的優勢在于易于控制,用少量的模板滿足多種問題需求,劣勢在于出現答非所問的概率比較大。
基于語料庫
這種做法是先收集-整理一批閑聊庫,一般情況是一個意圖對于一個標準問題及相應問題的泛化,針對問題有多個答案,形成類似一問多答的效果,這種做法的優勢在于回答內容是可控,不會出現意料之外的答案,目前市場上閑聊語料庫作法是比較廣泛,如針對于金融保險行業做的比較好的竹間機器人、平安等,針對兒童領域做的比較好北京光年的圖靈機器人、狗尾草的公子小白等都是使用這種方式,劣勢在于回答的內容非常有限,畢竟都是在設計的語料庫內的答案。
基于生成式
生成式一直都是NLP領域研究的前沿方向,早期的微軟小冰及各大研究院推出的閑聊系統都是生成式的,生成式對話系統的優勢在于基于有限的語料,通過深度學習/神經網絡可以獲得額外的答案,從而實現無中生有的效果,劣勢在于回答的內容不可控,誰都無法預估到會出現什么樣的答案,目前該種方式只能使用研究及部分真正的“閑聊”中,無法使用到企業業務中,畢竟沒人能真正控制的了回答的是什么內容,假如出現性別,種族歧視吶?
總結,這三種方式各有各的優勢,在我們實際使用中,需要根據業務需求采取相應的設施,以下是三種方案的對比:
- 回答內容可控性:基于語料庫 > 基于固定模板> 基于生成式
- 回答內容豐富度:基于生成式 > 基于固定模板 > 基于語料庫
- 回答內容的可靠度性:基于語料庫 > 基于固定模板> 基于生成式
目前企業生產的使用度來看,大多數企業采用的是語料庫+模板兩種方案結合一起,既能達到內容的可控性,又能在一定程度上滿足豐富度。