對話百度資深研發工程師辜斯繆:解密百度搜索
近年來,搜索引擎技術也在迅猛演進,從“關鍵詞搜索”到“SNS搜索”,再到“實體搜索”,搜索引擎變得越來越智能與社會化。為此,記者采訪了百度資深研發工程師辜斯繆。在辜斯繆的描繪下,一個搜索引擎的智能未來,正在我們眼中呈現。
多年來,自然語言技術一直被認為是人機界面的“烏托邦”夢想。也即人們對計算機說出一句話,計算機就能夠理解并迅速響應。然而,在現實應用中,人們使用最為頻繁的,還是基于關鍵詞的搜索引擎。近年來,搜索引擎技術也在迅猛演進,從“關鍵詞搜索”到“SNS搜索”,再到“實體搜索”,搜索引擎變得越來越智能與社會化。為此,記者采訪了百度資深研發工程師辜斯繆。在辜斯繆的描繪下,一個搜索引擎的智能未來,正在我們眼中呈現。
記者:辜斯繆您好!請問一下近年來搜索引擎技術有什么發展?
百度辜斯繆:作為搜索引擎行業的領導企業,百度一直在致力于搜索技術的研發和推進。就我個人觀察,近年來搜索引擎呈現出“關鍵詞”-“SNS”-“實體搜索”的遞進式發展,其搜索對象也從“信息片段”到了“人”以及“實體”。
記者:關鍵詞搜索大家都很熟悉了,SNS搜索和實體搜索是怎么回事呢?
百度辜斯繆:其實你比如百度空間、百度知道、百度貼吧這些社區式的服務,當然還有比如微博這樣的服務,實際上是將人聚合在了一起。SNS搜索,實際上就是可以讓你找到你感興趣的人,這個大家也都有體會。你看到百度空間、百度知道、百度貼吧、微博上有令你感興趣的內容,你也能進一步找到這個人,和他/她交朋友。
而實體(entity)搜索是相對于關鍵詞(keyword)搜索而言的。關鍵詞搜索是只能針對你輸入的關鍵詞去檢索,搜索引擎按照字面意思勤勤懇懇的去找。
實體搜索關注的重點不是“關鍵詞”級別的信息,而是“對象”,比如:人,電影,軟件,小說,公司,組織等等。從關鍵詞向實體轉化,將從更精細的角度來理解和組織搜索結果。在一定程度上可以理解query(即用戶搜索需求)的意思,并直接給出答案。 一些更智能更個性化的交互也依賴于實體作為基礎,比如搜“張藝謀導演的電影”。
記者:這讓我想起統計學的一個概念“集合”?
百度辜斯繆:是的,很多時候用戶的需求就是這樣,只知道想找某一類東西,但并不明確具體要找的東西叫什么。對于這樣的需求,過去是一籌莫展的,而我們現在卻能夠智能的搜索到結果,并組織成一個集合呈現給用戶。事實上,百度在揣度用戶心思的方面做了很多努力,希望盡可能的識別出用戶的需求,哪怕用戶對需求的描述是多樣化的或者不規范的。
記者:比方說,我買了同仁堂這只股票,我搜索“同仁堂”也可以找到它的股票行情,或者搜索“600085”的股票代碼也可以搜索到它的行情?
百度辜斯繆:是的,現在的搜索引擎可以認為已經有了一定的人工智能,能夠猜到你到底要搜索什么并且能夠直接給你推送相關的結果。傳統搜索引擎只能“返回”用戶下的指令,實現不了智能的“發現”。比如你搜索“秋天開花的樹”,需要在搜索結果中不斷去手動探索答案。而實體搜索,用戶只需要通過一次點擊,就能得到想要的結果。之前需要用戶親自執行的中間繁復的篩選+搜索的過程,全部由實體搜索代替用戶完成。
記者:這個挺有意思的,通俗說,搜索引擎能明白人類想要搜索什么了,就直接憑借經驗給出結構化的答案了。這是怎么實現的呢?
百度辜斯繆:在實體搜索方面,百度采用了深入的語義分析技術,從分析實體屬性方向進行算法創新。
實體搜索超越了傳統搜索只按關鍵詞的字面進行信息查找的層面,比傳統搜索更加智能。這表現在實體搜索對關鍵詞的分析更加精細,先分析出關鍵詞中的實體類型,比如:動植物,人,軟件,小說等,再分析出關鍵詞中包含的有關這個實體的屬性,比如:好看的,不掉毛的,防輻射的等等,充分理解關鍵詞想表達的意思,得到用戶搜索時真正的需求。
記者:您剛才提到的這個,應該是要在后臺建立一個“實體”的標簽集合吧?那這個工作量很大,百度是通過人工還是技術完成的?
百度辜斯繆:人工的成本和效率都不具備實操性。作為一家技術起家的公司,百度在這方面有自身長期的積累。我們是通過數據挖掘技術來完成實體信息獲取、屬性挖掘、關聯信息挖掘的。
實體搜索背后,需要有一個關于實體的信息數據庫,庫里的信息既要包含海量的實體信息,還要有能精確描述實體的相關屬性。實體庫的建設需要長期的積累和強大的數據挖掘技術,這正是百度的長處。百度從互聯網海量的網頁中挖掘出有效的實體,對這些實體進行分類,并能把關鍵的屬性也進行分類,保證了實體信息的廣度,也保證了實體屬性的精度。
通過百度獨特的數據挖掘技術,實體搜索能做到的不僅目前可見這些,還能提供更復雜的信息。比如實體之間的關聯。像人與人之間的關系,通過獲取到的資源,僅從字面信息是不能完全分辨的,需要更進一步的挖掘和分析。比如明星的人物關系。最簡單的是家庭關系,從一張網頁的字面信息就能直接獲取,明星之間的朋友關系就復雜一些,不能從一張網頁上得到,而是需要對明星人物相關的頁面進行整理,提取其中的相關信息,通過分析和比較,才能得出結果。
記者:這太神奇了,以前還真沒有注意到。百度現在“實體搜索”已經占到了多大比例,未來的發展會怎樣?
百度辜斯繆:目前比例還是非常小,在未來,“實體搜索”會越來越扮演一個重要的角色,為廣大的百度用戶提供更加智能化的搜索體驗。
記者:其他搜索引擎可能也在做類似“實體搜索”的技術和體驗,百度相對競爭對手的優勢在哪里?
百度辜斯繆: 百度多年來一直致力于中文搜索技術的研發,積累了大量的資源和技術,其中就包括“實體搜索”所依托的知識挖掘技術以及用戶需求識別技術。同時,我們一直在深入理解用戶行為,設計最能夠滿足用戶需求的產品。所以我們不會受特定的產品形式的限制,會有更多更有用也更有趣的產品推出來,請大家拭目以待。
責任編輯:馬沛
來源:
51CTO.com