巧妙運用PHP函數實現采集器

作者：佚名 2009-11-18 15:39:43

文章這里巧妙利用PHP函數中的file_get_contents()和preg_match_all()實現采集器，希望對大家有幫助。

PHP經過長時間的發展，很多用戶都很了解PHP了，我們現在可以利用PHP函數實現采集器程序。何為采集器，通常又叫小偷程序，主要是用來抓取別人網頁內容的。關于采集器的制作，其實并不難，就是遠程打開要采集的網頁，然后用正則表達式將需要的內容匹配出來，只要稍微有點正則表達式的基礎，都能做出自己的采集器來的。

#T#前幾天做了個小說連載的程序，因為怕更新麻煩，順帶就寫了個采集器，采集八路中文網的，功能比較簡單，不能自定義規則，不過大概思路都在里面了，自定義規則可以自己來擴展。用php來做采集器主要用到兩個PHP函數：file_get_contents()和preg_match_all()，前一個是遠程讀取網頁內容的，不過只在php5以上的版本才能用，后一個是正則函數，用來提取需要的內容的。面就一步一步來講功能實現。因為是采集小說，所以首先要將書名、作者、類型這三個提取出來，別的信息可根據需要提取。

這樣還不夠，還需要一個切取PHP函數：

function cut($string,$start,$end){     
$message = explode($start,$string);     
$message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內容，$start為開始的地方，$end為結束的地方。取出分類號：     
 
$start = "Html/Book/";     
$end    
= "List.shtm";     
$typeid = cut($typeid[0][0],$start,$end);     
$typeid = explode("/",$typeid);[/php]     
 
這樣，$typeid[0]就是我們要找的分類號了。方法如下：     
 
$ustart = "\"";     
$uend    
= "\"";     
//t表示title的縮寫     
$tstart = ">";     
$tend    
= "<";     
//取路徑,例如:123.shtm,2342.shtm,233.shtm     
preg_match_all("/\"[0-9]{1,}\.(shtm)\"/is",$chapterurl,$url);     
//取標題,例如:***章 九世善人     
preg_match_all("/<a href=\"[0-9]{1,}\.shtm\"(.*?)\<\/a>/is",$file,$title);     
$countcountcount = count($url[0]);     
for($i=0;$i<=$count;$i++)     
{     
$u = cut($url[0][$i],$ustart,$uend);     
$t = cut($title[0][$i],$tstart,$tend);     
$array[$u] = $t;     
}

$array數組就是所有的章節地址了，到這里，采集器就完成一半了，剩下的就是循環打開每個章節地址，讀取，然后將內容匹配出來。這個比較簡單，這里就不詳細敘述了。好了，今天就先寫到這吧，***次寫這么長的文章，語言組織方面難免有問題，還請大家多包涵！

責任編輯：田樹來源： it168

PHP函數

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

巧妙運用PHP函數實現采集器