使用開源搜索引擎YaCy的技巧
無需適應其他人的眼光,而是使用 YaCY 搜索引擎定義你想要的互聯網。
在我以前介紹 YaCy 入門的文章中講述過 YaCy 這個對等式的搜索引擎是如何安裝和使用的。YaCy 最令人興奮的一點就是它事實上是一個本地客戶端,全球范圍內的每一個 YaCy 用戶都是構成整個這個分布式搜索引擎架構的一個節點,這意味著每個用戶都可以掌控自己的互聯網搜索體驗。
Google 曾經提供過 google.com/linux 這樣的主題簡便方式以便快速篩選出和 Linux 相關的搜索內容,這個小功能受到了很多人的青睞,但 Google 最終還是在 2011 年的時候把它下線了。
而 YaCy 則讓自定義搜索引擎變得可能。
自定義 YaCy
YaCy 安裝好之后,只需要訪問 localhost:8090
就可以使用了。要自定義搜索引擎,只需要點擊右上角的“管理”按鈕(它可能隱藏在小屏幕的菜單圖標中)。
你可以在管理面板中配置 YaCy 對系統資源的使用策略,以及如何跟其它的 YaCy 客戶端進行交互。
YaCy profile selector
例如,點擊側欄中的“第一步”按鈕可以配置備用端口,以及設置 YaCy 對內存和硬盤的使用量;而“監控”面板則可以監控 YaCy 的運行狀況。大多數功能都只需要在面板上點擊幾下就可以完成了,例如以下幾個常用的功能。
內網搜索應用
目前市面上也有不少公司推出了內網搜索應用,而 YaCy 可以免費為你提供一個。對于能夠通過 HTTP、FTP、Samba 等協議訪問的文件,YaCy 都可以進行索引,因此無論是作為私人的文件搜索還是企業內部的本地共享文件搜索,YaCy 都可以實現。它可以讓內部網絡中的用戶使用你個人的 YaCy 實例來查找共享文件,于此同時保持對內部網絡以外的用戶不可見。
網絡配置
YaCy 在默認情況下就支持隱私和隔離。點擊“用例與賬號”頁面頂部的“網絡配置”鏈接,即可進入網絡配置面板設置對等網絡。
YaCy network configuration
爬取站點
YaCy 的分布式運作方式決定了它對頁面的爬取是由用戶驅動的。并沒有一個大型公司對整個互聯網上的所有可訪問頁面都進行搜索,對于 YaCy 來說也是這樣,一個站點只有在被用戶指定爬取的前提下,才會被 YaCy 爬取并進入索引。
YaCy 客戶端提供了兩種爬取頁面的方式:你可以手動爬取,并讓 YaCy 根據建議去爬取。
YaCy advanced crawler
手動爬取
手動爬取是指由用戶輸入指定的網站 URL 并啟動 YaCy 的爬蟲任務。只需要點擊“高級爬蟲”并輸入計劃爬取的若干 URL,然后選擇頁面底部的“進行遠程索引”選項,這個選項會讓客戶端向互聯網廣播它要索引的 URL,可選地接受這些請求的客戶端可以幫助你爬取這些 URL。
點擊頁面底部的“開始新爬蟲任務”按鈕就可以開始進行爬取了,我就是這樣對一些常用和有用站點進行爬取和索引的。
爬蟲任務啟動之后,YaCy 會將這些 URL 對應的頁面在本地生成和存儲索引。在高級模式下,也就是本地計算機允許 8090 端口流量進出時,全網的 YaCy 用戶都可以使用到這一份索引。
加入爬蟲網絡
盡管一些非常敬業的 YaCy 高級用戶已經強迫癥般地在互聯網上爬取了很多頁面,但對于全網浩如煙海的頁面而言也只是滄海一粟。單個用戶所擁有的資源遠不及很多大公司的網絡爬蟲,但大量 YaCy 用戶如果聯合起來成為一個社區,能產生的力量就大得多了。只要開啟了 YaCy 的爬蟲請求廣播功能,就可以讓其它客戶端參與進來爬取更多頁面。
只需要在“高級爬蟲”面板中點擊頁面頂部的“遠程爬取”,勾選“加載”旁邊的復選框,就可以讓你的客戶端接受其它人發來的爬蟲任務請求了。
YaCy remote crawling
YaCy 監控相關
YaCy 除了作為一個非常強大的搜索引擎,還提供了很豐富的主題和用戶體驗。你可以在“監控”面板中監控 YaCy 客戶端的網絡運行狀況,甚至還可以了解到有多少人從 YaCy 社區中獲取到了自己所需要的東西。
YaCy monitoring screen
搜索引擎發揮了作用
你使用 YaCy 的時間越長,就越會思考搜索引擎如何改變自己的視野,因為你對互聯網的體驗很大一部分來自于你在搜索引擎中一次次簡單查詢的結果。實際上,當你和不同行業的人交流時,可能會注意到每個人對“互聯網”的理解都有所不同。有些人會認為,互聯網的搜索引擎中充斥著各種廣告和推廣,同時也僅僅能從搜索結果中獲取到有限的信息。例如,假設有人不斷搜索關于關鍵詞 X 的內容,那么大部分商業搜索引擎都會在搜索結果中提高關鍵詞 X 的權重,但與此同時,另一個關鍵詞 Y 的權重則會相對降低,從而讓關鍵詞 Y 被淹沒在搜索結果當中,即使這樣對完成特定任務更好。
就像在現實生活中一樣,走出虛擬的世界視野會讓你看到一個更廣闊的世界。嘗試使用 YaCy,看看你發現了什么。