2009年互聯網5大趨勢之結構化的數據
結構化的數據可以說比較適合Web開發中的數據傳輸,未結構化的信息將會讓路于結構化的數據,為更智能的計算鋪路。這也是今后互聯網發展的趨勢。
1、結構化的數據Structured Data
***個主要的趨勢是結構化的數據,這個概念在以往有關語義網(Semantic Web)的一些演講中,曾被引用過,但顯而易見,到現在為止,結構化的數據比語義網的發展趨勢更加明顯。本文會分析結構化的數據在今年的發展,并且有三個產品供參考:OpenCalais, Google, Wolfram Alpha。
不是文檔集,而是數據網
Tim Berners-Lee(譯者注:萬維網(WWW)的***,為互聯網的迅速、大規模發展奠定了非常非常重要的技術基礎)在二月份曾說我們現在身處一個數據網,而不是一個文檔集,Tim Berners-Lee領導的組織W3C,已經大力推動了兩個關鍵行動來建立這個數據網:語義網(Semantic Web)和最近提到的數據鏈(Linked Data)。
在過去的幾年里,我們已經看到了有很多其他方式來建立結構化的數據,目前***的例子是Twitter,因為 Twitter 90%的訪問,都是由第三方程序對其API的使用貢獻的(譯者注:我一開始很難理解Twitter為什么會是結構化的數據的***實例,因為Twitter里面傳播的信息統統是非結構化的。但經過仔細思考,發現Twitter其實成功創造了一種使用短信息來更新狀態的通訊方式,對于內容更新、狀態更新類的數據來說,這的確是結構化的,更重要的是,使用范圍之廣,已形成事實的標準)。
數據網的基本概念仍然與由Alex Iskold在2007年3月提到的相同:“未結構化的信息將會讓路于結構化的數據,為更智能的計算鋪路”。
譯者注:來自不同網站的非結構化信息,通過各個公司/組織提供的API,成為了結構化的數據
實例1:OpenCalais
***個實例產品OpenCalais,很可能是目前***的有關數據鏈的產品,這是湯姆森路透(Thomson Reuters)于2008年2月發布的一個API。簡單地講,OpenCalais可以將非結構的網頁內容轉化為具有語義標記的數據,它可以將數據按照人物、地點、公司等分組組織。通過這種方式,第三方的程序或網站可以利用這些數據生成許多有趣的新應用——這正是數據鏈的基本定義。
關于數據鏈的更完整定義,參見Alexander Korth在2009年4月從技術角度的介紹:數據網,創建可供機器閱讀的信息 (The Web of Data: Creating Machine-Accessible Information),本文作者同樣在2009年5月撰文:“Linked Data is Blooming: Why You Should Care”,介紹了數據鏈的背景與好處。
譯者注:非結構的文檔(文本/HTML),經過OpenCalais的解析,成為了人物、公司、地點、事件等結構化的數據
實例2:Google Rich Snippets
今年5月,Google將結構化的數據添加到了它的核心搜索中,作為一個名為“Rich snippets”的特性出現。這個特性的本質是通過 microformats 或 RDFa 等開放的結構化數據標準,從網頁中提取并展現有價值的信息(譯者注:百度最近提的框計算概念,其實類似于數據鏈,即用戶搜索到的不僅僅是網頁,還有有價值的數據,比如搜索股票代碼,出現的是該股票的實時行情,而不是包含該股票代碼的網頁鏈接)。在5月份發布這個特性的時候,Google邀請了內容發布者來標記他們的HTML,盡管要想這種標記廣泛使用需要一定的時間,但事實上如果有Google這樣的大公司的推動,正顯示了結構化的數據于互聯網越來越大的重要性。
譯者注:一個英文例子,搜索結果直接包含被搜索商品的評論、價格范圍
譯者注:一個中文例子:結果直接包含被搜索到網站的Alexa排名數據
其他大公司同樣***了這個方向,比如雅虎。
實例3:Wolfram Alpha
從 Wolfram Alpha 5月份的隆重推出到現在,作者一直在密切關注這個非常創新的產品。這個一個自描述的“可計算知識引擎 computational knowledge engine”,在一些預測中,它甚至被稱為Google克星。雖然這有些夸張,但它的確有不少可能的應用。
Wolfram Alpha有個類似搜索引擎的界面,可以由用戶輸入自然語言。但它的主要部分是估算用戶的行為,來顯示合適的數據,這個產品是以使用與計算數據為前提的。如果Web2.0是產生數據(或者用戶產生內容),那么下一代的互聯網就是如何使用這些數據了。
總結
通過以上三個例子我們可以看到結構化的數據正快速地成為當今互聯網的一個特性。像湯姆森路透(Thomson Reuters)與Google這樣的公司正逐步實現數據的結構化,而更多像Wolfram Alpha這樣的產品正在利用結構化的數據實現我們今天根本無法想象的功能。
譯者注
為了方便理解,根據我的個人看法,這里解釋一下文檔、數據、結構化等詞,如有謬誤,歡迎指正:
文檔:亦內容,可供閱讀,傳播。如:某產品的某個評論;某應聘人員的簡歷。
數據:與內容相同的是可以閱讀,傳播;勝于內容的是有明確分類,可供分析。如某個產品的評論分數;某應聘人員簡歷中的年齡,專業、工作年限。
結構化:數據結構化以后,會更易于分析,查找,抽象。如:某產品有幾條評論,分數各是多少(可算出平均分,從而推斷口碑***的產品是哪個);應聘的所有人員的年齡分布、專業分布、工作年限分布。
另,我理解知識生產的過程如下:
信息(消息,新聞) 提取 數據 轉化。分析 結構化數據 抽象 知識
所以,有了結構化的數據以后,離知識就只差一步了,所以不難想象,未來的互聯網是可以自動生產知識的。
原文標題:2009年互聯網5大趨勢之一:結構化的數據
鏈接:http://www.cnblogs.com/zhubo/archive/2009/09/14/top_5_web_trends_of_2009_structured_data.html
【編輯推薦】