淺析基于ASP.NET網頁的C#數據采集

作者：畫上句號 2009-08-13 17:52:27

在好奇的動力下，開始瘋狂的查閱以及學習關于網頁采集，數據采集等相關信息。不過網上大部都是ASP的和PHP的，關于.NET的很少。無奈之下只要硬著頭皮學習。這里簡單介紹下基于ASP.NET網頁的C#數據采集。

經過幾天的努力，最終還是給我研究出來了。心里還是挺高興的襖。其實網頁采集也沒有用到什么高深的技術，都是些普普通通的技術，只不過效果比較神奇，就會讓人感覺到整個都比較深奧，如果你想學習.NET的數據采集，以及思路，那么請看完。

C#數據采集大體可以分為兩部曲：

一部曲：

因為要采集別人網頁上的內容，所有我們先要得到要采集網頁上的html代碼，獲取html代碼還是比較簡單。利用WebClient的DownloadData(url)得帶byte數組，然后在轉換成string字符串。

具體代碼如下：

///<summary>  
///獲取網頁源代碼  
///</summary>  
///<paramname="url">URL路徑</param>  
///<paramname="encoding">編碼方式</param>  
publicstringGetHTML(stringurl,stringencoding)  
{  
WebClientweb=newWebClient();  
byte[]buffer=web.DownloadData(url);  
returnEncoding.GetEncoding(encoding).GetString(buffer);  
}

二部曲：

現在我們得到了目標網頁的html代碼，那么我們就開始時得扣取我們想要的數據。扣取數據無疑就要用到強大的正則表達式了。利用正則表達式的匹配來獲取我們要的內容，這里可以過濾掉制定的html代碼，剩下的就是內容了。

C#數據采集具體代碼如下：

Htmlhtml=newHtml();  
//得到指定頁面的html代碼，***個參數為url(貌似都知道),第二個是目標網頁的編碼集  
stringhtmlCode=html.GetHTML("http://gvod.tom59.cn/List.asp?ClassId=3","gb2312");  
//正則表達式  
Regexregexarticles=newRegex("<td\\s+height=\"\\d+\"><a\\s+href=\".+DataId=(?<id>\\d+)\"\\s+target=\"_blank\">(?<title>.+)</a>.*</td>");  
//所有匹配表達式的內容  
MatchCollectionmarticles=regexarticles.Matches(htmlCode);  
///遍歷匹配內容  
foreach(Matchminmarticles)  
{  
Console.Write("標題:"+m.Groups["title"].Value+"\n");  
Console.Write("id:"+m.Groups["id"].Value+"\n");  
Console.Write("\n");  
}

以上就是C#數據采集的核心代碼，關于正則表達式我在這里就不詳細講解了(其實正則表達式我也是菜鳥哈)。

C#數據采集結語：

大部分看似很神奇的功能，都是我們平常所用的功能拼加起來的，其實仔細分析起來也沒有多大的難度，只要能夠認真研究。

本文來自畫上句號的新浪博客文章《asp.net/C#網頁數據采集》

【編輯推薦】

C#反射方法學習總結
淺談C#測量cpu性能
C#遠程計算機的一些理論知識
淺析C# Static修飾
C#轉換農歷的簡單方法

責任編輯：彭凡來源：新浪博客

C#數據采集

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

淺析基于ASP.NET網頁的C#數據采集