下一代搜索引擎呼之欲出:歐研發新瀏覽器
歐洲研究人員最近開發出一種語義網格瀏覽器,其能理解生命科學中的科學術語,也能自動尋找額外的資源和服務,這或許能發展為下一代智能搜索引擎。
生命科學界已為基因測序和疾病信息建立了眾多的數據庫,這些數據庫可以網格服務的形式提供給研究人員。歐盟對一個稱為Sealife的項目進行了資助,該項目旨在設立一個語義網格瀏覽器,以更容易地為生命科學研究提供網格服務。
Sealife項目協調員、德國德累斯頓理工大學的邁克爾·施羅德說:“網格計算本質上就是建立獨立于物理位置的虛擬組織。問題是如何將這些服務鏈接到可在網站上找到的其他科學信息。我們先有了網絡,又有了擁有許多服務器的網格計算。一個語義網格瀏覽器則可將它們無縫地集成在一起。”
我知道你想要什么
語義網格瀏覽器會試圖理解其在網絡上發現的東西,解釋其內容,然后鏈接至可能對用戶有用的服務器。Sealife語義瀏覽器的關鍵是語義超鏈接,它可通過顯示頁面將用戶引導到相關服務器。這個鏈接不是由網站而是由瀏覽器本身引導的。
首先,瀏覽器需要理解頁面的內容,并識別出可能鏈接至網格服務器的術語。Sealife項目的一個典型的測試例子就是基因。施羅德指出,每個人類基因平均有5.5個名字,如果它能夠被正確地識別,語義瀏覽器就能提供含有此基因更豐富信息的鏈接
瀏覽器還能處理模棱兩可的意思。譬如,“美洲虎”可能指的是一種動物,也可能是一輛汽車,還可能是Mac操作系統。Sealife語義瀏覽器可使用專門的算法從頁面上的相關詞語來進行判斷,并對其含義作出正確解釋。
雖然語義網格瀏覽器還稱不上是完備的科學,但Sealife算法在與其他50個算法的國際競爭中已脫穎而出,其算法成功率高達87%%。
背景知識是基石
第二項挑戰則是使瀏覽器理解所需識別術語的背景知識。這些知識被稱為“本體論”(ontology),本體論本是哲學概念,它是研究存在的本質的哲學問題。但近幾年,這個詞被應用到計算機界,并在人工智能、計算機語言以及數據庫理論中扮演著越來越重要的角色。
在實現上,本體論是概念化的詳細說明,一個本體論往往就是一個正式的詞匯表,其核心作用就在于定義某一領域或領域內專業詞匯及他們之間的關系。這一系列的基本概念如同一座大廈的基石,為交流各方提供了一個統一的認識。
在這一系列概念的支持下,知識的搜索、積累和共享的效率將大大提高,真正意義上的知識重用和共享也成為可能。按照廣義分類法,生命科學就是語義網格瀏覽器的一個理想領域。所有這些建設有層次的分類系統的努力已成為生命科學世紀的核心。
但在生命科學之外,這樣的系統分類發展得還不盡如人意,Sealife項目已能從任何感興趣領域的已出版文字中創建編輯器來建設本體論。
施羅德說:“我們開發的算法可對此數據進行仔細分析,確定關鍵概念,然后本體論編輯器會將這些概念提供給用戶。如果用戶同意,它就能搜索網站找到那些看起來與定義相像的內容。建立這個背景知識的整個過程是不能完全自動化的,但可大大緩解用戶在這個建立過程中的痛苦。”
Sealife項目的不同伙伴建立了各種版本的瀏覽器,這些伙伴分布在愛丁堡、曼徹斯特、倫敦、索菲亞—安蒂波利斯和德累斯頓。他們已在醫學、科學和專利文獻挖掘和分子生物學等3種情形下以傳染病為重點進行了測試。
會發展為下一代搜索引擎嗎?
德累斯頓項目組成立的一家新公司在利用Sealife項目成果方面取得了很大成功。該公司已將瀏覽器銷售給像巴斯夫、聯合利華這樣的大客戶,其GoPubMed搜索引擎可鏈接至PubMed(美國國家醫學圖書館期刊文獻檢索系統)中的生物醫學文獻檔案。
PubMed是美國家醫學圖書館(NLM)下屬的國家生物技術信息中心(NCBI)開發的、基于WWW的查詢系統。PubMed也包含著與提供期刊全文的出版商網址的鏈接,來自第三方的生物學數據,測序中心的數據等等。PubMed提供與合成分子生物學數據庫的鏈接與接入服務,這個數據庫的內容包括:DNA與蛋白質序列、基因圖數據、3D蛋白構象及人類孟德爾遺傳在線等。
但是,沒有任何理由僅將語義瀏覽器的應用局限在專業學術領域。我們能否擁有一個可理解一切的瀏覽器呢?施羅德認為這看似有些牽強,但也并非完全不可能。他說:“我們的目標是要涵蓋任何領域,如果我們能將維基百科中的知識加以提取并程序化,我們就能擁有覆蓋所有領域的通用背景知識。”
許多研究人員正期待著下一代搜索引擎的問世,它們將能理解用戶想要尋找的東西,并返回比現今搜索引擎所能提供的更多的相關結果。這將涉及到信息的整合化,因為很多時候問題的答案并不能在一個文件中全部找到。
研究人員稱,未來,背景知識將成為Sealife的核心。將語義引入搜索引擎可使其得以擴展,如此,下一代搜索引擎的橫空出世也將不再遙遠。
【編輯推薦】