Google正在研究Web結構化數據

作者：yeeyan 2009-02-02 09:05:08

互聯網的搜索引擎們把主要精力都放在采集Web頁面的文本信息上，但是Google卻在研究如何分析和組織結構化數據方面小有所成，該公司的一位科學家上周五表示。

“在Web之外存在著大量的結構化數據，但我們卻并沒有很好地將這些數據展示給用戶。”在馬薩諸塞州技術研究院舉行的新英格蘭數據庫日會議中，Alon Halevy在一次談話中這樣說道。

Halevy還談到了所謂的“深Web”源，比如為Cars.com或者Realtor.com這類表單驅動型網站做后臺支撐的數據庫資源。Google一直都在不停的向各種表單提交查詢請求，然后對返回的結果進行分析，最后將有用的內容加入到索引當中。

但是該公司仍然希望Web站點們能夠將數據存放到結構化的表格中供google分析，Halevy說，例如在Web頁面上提供一個表格列舉出歷任美國總統。

但是這樣的表格也是數量巨大的，據Halevy說，Google的索引中已經收錄了140億個。他“很快就意識到其中有超過98%的內容是用戶不感興趣的，”但即使經過了仔細的篩選之后，仍然有1億5400萬個表格值得被Google索引。

Google的一個終極目標就是把一個搜索請求的結果組織成“各個方面”返回給用戶，特別是像“越南旅游”這種比較寬泛的關鍵字，而不是“越南人口”這種非常具體的關鍵字，Halevy說，前面的搜索請求可能會產生關于簽證條件、氣候、旅行團等這類信息。

Kosmix已經在做這個點子了，但是Google將會做的更多，Halevy說，“Kosmix的確能夠展示出‘方面’，但是它依賴于特定的信息源。”

在Kosmix上搜素“越南旅游”，它會給你提供一個結果集，包括紐約時報關于酒店的評論，來自雅虎和Flickr的圖片，來自Shopping.com的購物信息以及來自Google的其他信息。

“而我們則不同，各方面信息都來自于Web的搜索結果，但會以不同的方式組織起來。”Halevy說。

【編輯推薦】

責任編輯：田超來源： IT168

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看