成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

Java網絡爬蟲的實現

作者：grunt1223 2011-03-09 10:07:56

記得在剛找工作時，隔壁的一位同學在面試時豪言壯語曾實現過網絡爬蟲，當時的景仰之情猶如滔滔江水連綿不絕。后來，在做圖片搜索時，需要大量的測試圖片，因此萌生了從Amazon中爬取圖書封面圖片的想法，從網上也吸取了一些前人的經驗，實現了一個簡單但足夠用的爬蟲系統。

記得在剛找工作時，隔壁的一位同學在面試時豪言壯語曾實現過網絡爬蟲，當時的景仰之情猶如滔滔江水連綿不絕。后來，在做圖片搜索時，需要大量的測試圖片，因此萌生了從Amazon中爬取圖書封面圖片的想法，從網上也吸取了一些前人的經驗，實現了一個簡單但足夠用的爬蟲系統。

網絡爬蟲是一個自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成，其基本架構如下圖所示：

傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。對于垂直搜索來說，聚焦爬蟲，即有針對性地爬取特定主題網頁的爬蟲，更為適合。

本文爬蟲程序的核心代碼如下：

Java代碼

public void crawl() throws Throwable {     
    while (continueCrawling()) {     
        CrawlerUrl url = getNextUrl(); //獲取待爬取隊列中的下一個URL     
        if (url != null) {     
            printCrawlInfo();      
            String content = getContent(url); //獲取URL的文本信息     
                 
            //聚焦爬蟲只爬取與主題內容相關的網頁，這里采用正則匹配簡單處理     
            if (isContentRelevant(content, this.regexpSearchPattern)) {     
                saveContent(url, content); //保存網頁至本地     
    
                //獲取網頁內容中的鏈接，并放入待爬取隊列中     
                Collection urlStrings = extractUrls(content, url);     
                addUrlsToUrlQueue(url, urlStrings);     
            } else {     
                System.out.println(url + " is not relevant ignoring ...");     
            }     
    
            //延時防止被對方屏蔽     
            Thread.sleep(this.delayBetweenUrls);     
        }     
    }     
    closeOutputStream();     
}

整個函數由getNextUrl、getContent、isContentRelevant、extractUrls、addUrlsToUrlQueue等幾個核心方法組成，下面將一一介紹。先看getNextUrl：

Java代碼

private CrawlerUrl getNextUrl() throws Throwable {     
    CrawlerUrl nextUrl = null;     
    while ((nextUrl == null) && (!urlQueue.isEmpty())) {     
        CrawlerUrl crawlerUrl = this.urlQueue.remove();     
                    
        //doWeHavePermissionToVisit：是否有權限訪問該URL，友好的爬蟲會根據網站提供的"Robot.txt"中配置的規則進行爬取     
        //isUrlAlreadyVisited：URL是否訪問過，大型的搜索引擎往往采用BloomFilter進行排重，這里簡單使用HashMap     
        //isDepthAcceptable：是否達到指定的深度上限。爬蟲一般采取廣度優先的方式。一些網站會構建爬蟲陷阱（自動生成一些無效鏈接使爬蟲陷入死循環），采用深度限制加以避免     
        if (doWeHavePermissionToVisit(crawlerUrl)     
            && (!isUrlAlreadyVisited(crawlerUrl))      
            && isDepthAcceptable(crawlerUrl)) {     
            nextUrl = crawlerUrl;     
            // System.out.println("Next url to be visited is " + nextUrl);     
        }     
    }     
    return nextUrl;     
}

更多的關于robot.txt的具體寫法，可參考以下這篇文章：

http://www.bloghuman.com/post/67/

getContent內部使用apache的httpclient 4.1獲取網頁內容，具體代碼如下：

Java代碼

private String getContent(CrawlerUrl url) throws Throwable {     
    //HttpClient4.1的調用與之前的方式不同     
    HttpClient client = new DefaultHttpClient();     
    HttpGet httpGet = new HttpGet(url.getUrlString());     
    StringBuffer strBuf = new StringBuffer();     
    HttpResponse response = client.execute(httpGet);     
    if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {     
        HttpEntity entity = response.getEntity();     
        if (entity != null) {     
            BufferedReader reader = new BufferedReader(     
                new InputStreamReader(entity.getContent(), "UTF-8"));     
            String line = null;     
            if (entity.getContentLength() > 0) {     
                strBuf = new StringBuffer((int) entity.getContentLength());     
                while ((line = reader.readLine()) != null) {     
                    strBuf.append(line);     
                }     
            }     
        }     
        if (entity != null) {     
            entity.consumeContent();     
        }     
    }     
    //將url標記為已訪問     
    markUrlAsVisited(url);     
    return strBuf.toString();     
}

對于垂直型應用來說，數據的準確性往往更為重要。聚焦型爬蟲的主要特點是，只收集和主題相關的數據，這就是isContentRelevant方法的作用。這里或許要使用分類預測技術，為簡單起見，采用正則匹配來代替。其主要代碼如下：

Java代碼

public static boolean isContentRelevant(String content,     
Pattern regexpPattern) {     
    boolean retValue = false;     
    if (content != null) {     
        //是否符合正則表達式的條件     
        Matcher m = regexpPattern.matcher(content.toLowerCase());     
        retValue = m.find();     
    }     
    return retValue;     
}

extractUrls的主要作用，是從網頁中獲取更多的URL，包括內部鏈接和外部鏈接，代碼如下：

Java代碼

public List extractUrls(String text, CrawlerUrl crawlerUrl) {     
    Map urlMap = new HashMap();     
    extractHttpUrls(urlMap, text);     
    extractRelativeUrls(urlMap, text, crawlerUrl);     
    return new ArrayList(urlMap.keySet());     
}     
    
//處理外部鏈接     
private void extractHttpUrls(Map urlMap, String text) {     
    Matcher m = httpRegexp.matcher(text);     
    while (m.find()) {     
        String url = m.group();     
        String[] terms = url.split("a href=\"");     
        for (String term : terms) {     
            // System.out.println("Term = " + term);     
            if (term.startsWith("http")) {     
                int index = term.indexOf("\"");     
                if (index > 0) {     
                    term = term.substring(0, index);     
                }     
                urlMap.put(term, term);     
                System.out.println("Hyperlink: " + term);     
            }     
        }     
    }     
}     
    
//處理內部鏈接     
private void extractRelativeUrls(Map urlMap, String text,     
        CrawlerUrl crawlerUrl) {     
    Matcher m = relativeRegexp.matcher(text);     
    URL textURL = crawlerUrl.getURL();     
    String host = textURL.getHost();     
    while (m.find()) {     
        String url = m.group();     
        String[] terms = url.split("a href=\"");     
        for (String term : terms) {     
            if (term.startsWith("/")) {     
                int index = term.indexOf("\"");     
                if (index > 0) {     
                    term = term.substring(0, index);     
                }     
                String s = "http://" + host + term;     
                urlMap.put(s, s);     
                System.out.println("Relative url: " + s);     
            }     
        }     
    }     
    
}

如此，便構建了一個簡單的網絡爬蟲程序，可以使用以下程序來測試它：

Java代碼

public static void main(String[] args) {     
    try {     
        String url = "http://www.amazon.com";     
        Queue urlQueue = new LinkedList();     
        String regexp = "java";     
        urlQueue.add(new CrawlerUrl(url, 0));     
        NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,     
                regexp);     
        // boolean allowCrawl = crawler.areWeAllowedToVisit(url);     
        // System.out.println("Allowed to crawl: " + url + " " +     
        // allowCrawl);     
        crawler.crawl();     
    } catch (Throwable t) {     
        System.out.println(t.toString());     
        t.printStackTrace();     
    }     
}

當然，你可以為它賦予更為高級的功能，比如多線程、更智能的聚焦、結合Lucene建立索引等等。更為復雜的情況，可以考慮使用一些開源的蜘蛛程序，比如Nutch或是Heritrix等等，就不在本文的討論范圍了。

【編輯推薦】

Java創始人：Oracle起訴Google與版權無關
薪酬與權力 Java之父講述離職Oracle內幕
Java之父：我們看中的并非Java語言，而是JVM
2010年10月編程語言排行榜：Java的混亂之治

責任編輯：金賀來源： JavaEye博客

網絡爬蟲 Java

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板： 91精品无人区卡一卡二卡三 | 欧美精品一区三区 | 九九热在线观看 | 先锋av资源网 | 久久久成人精品 | 在线国产一区二区 | 成人在线一区二区三区 | 国产在线观看一区二区三区 | 天天操人人干 | 国产a级毛片 | 美日韩免费 | 国产欧美一区二区三区久久 | 中文字幕免费在线 | 久久久性色精品国产免费观看 | 亚洲精品视频在线观看视频 | 99亚洲精品 | 日韩视频一区在线观看 | 精品视频在线一区 | 日韩欧美国产电影 | 亚洲成人在线网 | 欧美黑人一级爽快片淫片高清 | 在线中文字幕av | 99亚洲精品 | 日韩av免费在线观看 | 羞羞网站免费观看 | 欧美一级网站 | 国产九九精品 | 国产精品精品视频一区二区三区 | 免费成人在线网站 | 99精品免费久久久久久日本 | 国产二区三区 | 欧美黄色免费网站 | 日韩av一区二区在线观看 | 婷婷色国产偷v国产偷v小说 | 久久成人综合 | 黑人精品欧美一区二区蜜桃 | www.婷婷| 99久久久99久久国产片鸭王 | 国产成人影院 | 天堂久| 999久久久精品 |