成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用nutch檢索的歷程

開發 后端
最近開始做一個項目的搜索引擎,技術選型為爬蟲nutch。開始以為除了cms系統發布的靜態頁面以外,還有數據庫存儲的結構化數據需要索引(其實這些用頁面是用jsp展示的,在系統中已經有了)。

最近開始做一個項目的搜索引擎,技術選型為爬蟲nutch。開始以為除了cms系統發布的靜態頁面以外,還有數據庫存儲的結構化數據需要索引(其實這些用頁面是用jsp展示的,在系統中已經有了)。所以用爬蟲爬完網站后,就想著再把結構化的數據通lucene的api寫進nutch的索引中,最后通過多次嘗試發現很難實現。雖然能將lucene建立的索引追加進到nutch的索引中,可是卻很難讀出來(有一款luke軟件可以,可是想要趕緊完成項目,這個luke的源碼沒有時間來讀)。

lucene是一個平面化的存儲,一個索引就相當于數據庫的一張表。而nutch的存儲結構是hdfs存儲系統,hadoop的分布式系統,索引里面寫入了很多hadoop的數據,而且其中10個字段title/url/segment/host/site/content/anchor/boost/digest/tstamp業也不像原生的lucene索引的存放方式。多次嘗試發現用lucene基礎api讀取nutch的索引很難實現。

最近才發現原來nutch的搜索應用中的一個的一個配置文件regex-urlfilter.txt ,里面默認在后臺只爬取靜態頁面。所以導致我開始的想法。

知道這個以后好辦了,修改后臺和前臺應用的配置文件,消除對php/jsp/xxAction.do等動態url的過濾:

方法如下:修改conf下面的2個文件regex-urlfilter.txt,crawl-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.

-[?*!@=]

修改成

# accept URLs containing certain characters as probable queries, etc.

+[?=&]

從而允許動態傳參數的?=&等url的爬取。

換了個思路,省了不少事兒。nutch繼續研究使用中

【相關文章】

責任編輯:金賀 來源: ITEYE博客
相關推薦

2014-11-19 14:48:58

Nutch爬蟲Lucene

2010-06-07 15:07:24

nutch+hadoo

2009-02-06 17:18:47

LionbridgFalconStor飛康

2009-09-21 17:06:26

CakePHP模型檢索數據

2010-07-16 15:42:32

SQL Server

2010-05-04 12:18:43

Oracle Text

2010-07-09 10:36:22

SQL Server

2014-10-31 09:48:36

Go語言

2023-08-25 13:32:00

JavaScript虛擬DOM

2017-05-27 21:07:24

NFV網絡功能虛擬化數據中心

2012-03-14 11:38:16

ibmdw

2016-11-14 10:00:29

hadooplinux大數據

2013-04-24 10:24:03

2019-01-21 14:45:41

進程crash源碼

2009-01-05 10:06:24

草根站長網站心路歷程

2013-09-11 14:00:16

Windows 8.1

2022-12-10 15:25:51

進化歷程Vue

2010-11-01 06:38:03

Windows Ser

2023-08-02 08:02:30

Redis數據原生方法

2017-04-11 09:00:24

機器學習發展歷程啟示
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产综合精品一区二区三区 | 成人片网址| 天天操天天射天天舔 | 91porn成人精品 | 久久伦理电影 | 欧美日韩理论 | 美女天天干| 亚洲性视频在线 | 欧美精品a∨在线观看不卡 欧美日韩中文字幕在线播放 | 亚洲一区中文 | 亚洲精品成人在线 | 日韩欧美精品一区 | 一级黄色片毛片 | 国产伦精品一区二区三区精品视频 | 中文字幕日韩一区二区 | 国产在线视频一区 | 二区三区av | 五月婷婷在线视频 | 亚洲第一区久久 | 久久精品国产亚洲 | 中文字幕在线观看 | 午夜精品久久久久99蜜 | 精品一区二区三区视频在线观看 | 自拍偷拍亚洲视频 | 亚洲精品久久久一区二区三区 | 国产精品久久久久久久久久久久 | 天天干国产 | 国产精品美女久久久久久久网站 | 亚洲五码久久 | 日韩aⅴ视频 | 青娱乐一区二区 | 午夜国产一区 | 国产真实精品久久二三区 | 在线观看亚洲精品 | 亚洲视频二区 | 亚洲欧洲小视频 | 一区二区视屏 | 网站国产 | 天天操天天操 | 97av| 亚州激情 |