Google正在研究Web結構化數據
互聯網的搜索引擎們把主要精力都放在采集Web頁面的文本信息上,但是Google卻在研究如何分析和組織結構化數據方面小有所成,該公司的一位科學家上周五表示。
“在Web之外存在著大量的結構化數據,但我們卻并沒有很好地將這些數據展示給用戶。”在馬薩諸塞州技術研究院舉行的新英格蘭數據庫日會議中,Alon Halevy在一次談話中這樣說道。
Halevy還談到了所謂的“深Web”源,比如為Cars.com或者Realtor.com這類表單驅動型網站做后臺支撐的數據庫資源。Google一直都在不停的向各種表單提交查詢請求,然后對返回的結果進行分析,最后將有用的內容加入到索引當中。
但是該公司仍然希望Web站點們能夠將數據存放到結構化的表格中供google分析,Halevy說,例如在Web頁面上提供一個表格列舉出歷任美國總統。
但是這樣的表格也是數量巨大的,據Halevy說,Google的索引中已經收錄了140億個。他“很快就意識到其中有超過98%的內容是用戶不感興趣的,”但即使經過了仔細的篩選之后,仍然有1億5400萬個表格值得被Google索引。
Google的一個終極目標就是把一個搜索請求的結果組織成“各個方面”返回給用戶,特別是像“越南旅游”這種比較寬泛的關鍵字,而不是“越南人口”這種非常具體的關鍵字,Halevy說,前面的搜索請求可能會產生關于簽證條件、氣候、旅行團等這類信息。
Kosmix已經在做這個點子了,但是Google將會做的更多,Halevy說,“Kosmix的確能夠展示出‘方面’,但是它依賴于特定的信息源。”
在Kosmix上搜素“越南旅游”,它會給你提供一個結果集,包括紐約時報關于酒店的評論,來自雅虎和Flickr的圖片,來自Shopping.com的購物信息以及來自Google的其他信息。
“而我們則不同,各方面信息都來自于Web的搜索結果,但會以不同的方式組織起來。”Halevy說。
【編輯推薦】