百度陳翔:人工智能+搜索引擎,提升信息獲取效率及準確性
原創【51CTO.com原創稿件】2017年7月21日-22日,由51CTO主辦的以人工智能為主題的WOTI2017全球創新技術峰會在北京富力萬麗酒店隆重舉行。分論壇上,來自百度的資深研發工程師陳翔帶了精彩的演講。會后,記者采訪了陳翔,就人工智能在百度搜索的應用以及人工智能的發展前景等問題進行了深入交流。
【講師簡介】
陳翔,百度資深研發工程師,負責網頁搜索部相關研發工作:在搜索spider,阿拉丁等部門先后從事數據挖掘,機器學習等相關工作。
人工智能+搜索引擎
陳翔表示,其實一直以來,搜索就是一個人工智能的問題。只不過以前的人工智能更傾向于用一系列的超鏈技術、檢索技術將用戶查詢通過切詞和數據進行綜合,然后通過查詢數據關聯得到相關的結果。但是,通過這些年的發展,搜索在人工智能或者說在機器學習、深度學習上進行了很多的改造升級。隨著機器學習時代的來臨,百度搜索把人工搜索規則變成機器學習模型,其中應用最多的就是深度學習技術建立模型。
那么,怎樣才能真正的用好一個深度學習模型?陳翔認為,我們可以將深度學習看成一個黑盒子。判斷一個查詢是不是屬于某個類別的過程中,會產生一維特征,將它作為一個判斷的依據,也就是核心特征,然后通過深度學習專家評判,以及其他的輔助平臺,將特征做綜合,最終形成高級模型。
現在,百度搜索憑借機器學習、數據挖掘、自然語言處理、語音、圖像及用戶建模等技術日漸智能化。如今的百度搜索,不僅能針對移動場景將搜索結果有機聚合,繼而結構化呈現精準的信息內容,提升人們的信息獲取效率,而且可以通過大數據技術描繪人的個體特征,在準確判斷用戶需求的基礎上提供個性化信息服務。
百度搜索如何準確了解用戶的搜索意圖,識別用戶需求?
在無線時代和語音時代,用戶在百度上的搜索會更多使用自然語言,而很多情況下用戶的搜索帶著很明確的意圖。除去使用傳統的搜索技術外,我們可以針對一些重要的領域進行深入的搜索意圖理解。
利用每個用戶搜索附帶的語義信息,結合大數據挖掘,百度搜索能夠理解每次查詢用戶的核心意圖,借用各領域的內容開放生態建立起的知識庫系統,精準的滿足每個用戶搜索的核心意圖。比如當用戶搜索蘋果手機,百度搜索會給出圍繞這個手機相關的一系列商品,資訊,評測等結果。
基于這個目標,百度針對每個領域的需求特點,基于海量的數據和知識庫信息設計了一個通用需求理解模型,針對每個領域通過自動游走,模型生成的方式都快速產出一個理解模型,更進一步利用深度學習挖掘特征并加以應用大大優化了效果。
陳翔表示:目標在大多數類目上,需求識別基礎數據能夠達到95%準確率,在經過一些其他的策略的綜合優化后,更能進一步提升達到98%。
在更復雜的帶歧義場景下,百度搜索究竟是如何做到準確了解用戶的搜索意圖? 對此,陳翔表示,這個問題其實解決起來很困難。這是搜索最終完成的一件事情,這里牽扯很多技術。
現在百度通過已有的技術,能夠針對不同用戶同一個具有歧義的查詢進行基于場景和用戶畫像的更深入分析和結果展示。同時,通過交互等方式進一步協助用戶判斷他的真實意圖,比如蘋果,盡管大部分查詢都是尋找iphone相關的官方信息,但百度仍然會有比較多樣性的方式,能夠讓尋找水果或者電影的人有比較簡單的獲取信息方式。
采訪***,談及人工智能應用的市場發展前景,陳翔表示,在WOTI峰會現場,他發現深度學習會場的人非常多,是各個會場之最。深度學習時代已經來臨,深度學習深受社會認可,吸引了很多從業者不斷涌入。大規模的機器集群、計算能力,大量的算法的不斷改進,高精人才的持續投入,國家政策的支持等因素正在推動深度學習,推動人工智能不斷向前發展。
對于想要踏入人工智能研究領域的技術人員,陳翔建議首先要懂機器學習的內核,然后了解深度學習的能力,并學會如何充分發揮出深度學習的能力。目前互聯網上有很多的相關課程,可以多關注實戰類,多看深度解析類的讀物,只要足夠用心必將有所成。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】