如何評測語音技能的智能程度之指標權重設計

作者：老曹 2020-06-15 13:49:41

企業動態

這是一份前面四篇評測維度介紹文章的總結，同時也是一份清單使用說明書。“結構清晰，主次分明”，用解構的方式去理解一款產品，這才是人工智能從業者思考的專業化表現。

這是一份前面四篇評測維度介紹文章的總結，同時也是一份清單使用說明書。

[[330150]]

“結構清晰，主次分明”，用解構的方式去理解一款產品，這才是人工智能從業者思考的專業化表現。

對于這四大維度，什么是重點呢? 面向需求進行自定義。

如何定義各個維度的權重

權重高低的定義有兩個考量維度，一個是行業需求，另一個是硬件載體。行業需求包括出行、旅游、餐飲、教育、醫療、金融、電商、客服等;硬件載體包括智能音箱、智能手表、車機、智能耳機、機器人等等。

智能語音技能，往往都會解決某個行業領域的特定業務需求，也往往都存在于一個或多個硬件載體上，與人類進行交互行為。大維度自定義權重，同理，每個維度上的指標也基于需求自定義。

例如：某語音技能的定位是用來聽歌的，“意圖理解“中的模塊做得非常好，但是由于版權原因，很多歌曲無法播放，這個技能的用戶體驗就會非常糟糕，因為滿足不了用戶聽歌的需求。

如果該語音技能是線下生活服務，比如訂外賣或者是電影票，這類往往不具備版權壟斷特質，但由于業務流程的復雜，有太多疊加查詢條件，自然對“意圖理解“就會有很高的權重要求。

如果某個玩具/手辦具備語音交互功能，用戶非常在意玩具/手辦的語音交互是否匹配角色氣質，故而對這類用戶而言，“人格特質“就要要求高權重。

語音技能評測指標的選擇和量化

這份清單花了筆者太多的時間，仍然有太多的問題值得討論：

為什么是4個維度，而不是5個或者是3個?
基于什么依據設置每個維度的重點和加分項?
各維度是否窮盡了“智能化”評測的角度?
每個指標的用詞的和定義是否精準無歧義且易于理解?
每個維度的指標是不是平行、獨立關系?
每個維度的指標是不是做到了窮舉?

特別是在保留哪些指標，合并哪些指標之間，筆者做了很多的取舍和權衡。語音識別表現，這個指標，與其說是遺漏，不如說是筆者的選擇。目前最好的ASR識別率是97%，且這已經是非常成熟的技術。ASR和TTS是基礎服務，在未來就像AI領域水電煤一樣，就跟選百度云還是阿里云一樣，花錢買服務就能搞定，差距不會太大，故而不值得納入評測范疇。

因此，這類語音識別的基礎表現，就直接歸到【交互流暢】維度“服務穩定性”指標上了。

ASR這項技術未來差距很可能會被抹平，而如果做到了方言轉普通話然后轉文本那就是另外一個話題了，方言轉普通話和任何一種語言轉普通話是同一個邏輯。那筆者可能會歸納到【意圖理解】維度上。

筆者力求全面，但并非每一個都需要用到，可以基于自己的需求，自由添加、刪除和修改分類。例如：如果是一個智能耳機或者語義翻譯棒，那么“反饋樣式豐富性”上，就不必要納入評測范圍了。

但選擇本身就是一個難題，這件事情非常地考驗我們的認知。舉個例子：蘋果手機前面幾代產品，玻璃屏幕特別不耐摔，這在諾基亞的評測維度里面，是無法上市銷售的。后來的故事，我們都知道了，這個故事各位細品。

指標的量化標準并不是一個難題。拿測試集去驗證，最終統計各個指標的表現，然后再橫向比較競品就好。

商業化服務比得是相對指標，而不是絕對指標，即不需要考滿分，只要在某個方向上，領先與其他競品一段距離就好，然后就可以宣稱，這是當前市面上“某某指標”表現最好的產品。

語音技能服務的上限和下限

除去調研和評測其他智能語音技能，這份清單的還可以用于服務的產品定位，以及作為清單來評價語音技能服務表現。

語音技能服務在立項的時候，要哪些不要哪些，有多大的邊界和范圍，是一個思考題。開始的無屏音箱都在抄亞馬遜的Echo，后面為什么又出現了有屏音箱呢?這個就是智能語音產品的定位和選擇。

從商業邏輯上來看，缺陷明顯的產品無法存活于市場，沒有長項的產品也注定平庸。企業也沒法把所有的資源平均分配，那樣的東西注定平庸，唯有極致才可以生存。

語音技能服務的上限就是自己的賣點，這樣才能夠從競爭之中脫穎而出。

例如，再爛的智能手機也要搭配一顆攝像頭，且攝像頭的性能表現不能低于某個標準，如果這個太爛的話，注定無法存活。前面蘋果手機的屏幕其實也抗震，不是一摔就碎的東西，這種就是下限保障。

語音技能服務的下限要做到什么程度，這個就是及格線，存活于市場的前提。

在保證了及格線達到平均線標準之后，應當把更多的資源堆到某個維度上。大家比拼的是在資源有限的前提下，基于定位做產品交付。

戰略的第一步就是放棄，敢放棄什么，拼的是認知。

綜上所述——

基于定位來選擇重要的維度和指標，做權重優先級排序。
基于選擇的指標，使其數值可衡量，做量化標準。
基于公司資源保障產品下限，基于人才提升上限。

掌握使用說明書，這份清單的價值也就到位了。

總結

人的理性是有限的，在遇到環境影響而情緒波動的時候，結果往往不可控。如《清單革命》中所說的那樣，以原則清單行事則更加可控，減少糾結猶豫，提升效率。

筆者在設計評測指標的時候，往往是朝著最理想的人工智能去做比對的，它能幫助我們在各個維度上去逼近超級人工智能，打造令人尖叫的產品。

謝謝各位看到這里，希望這份業務清單能夠幫助到大家。

責任編輯：武曉燕來源： 51CTO專欄

語音技能指標

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何評測語音技能的智能程度之指標權重設計