Python實現網頁爬蟲基本實現代碼解讀

作者：佚名 2010-03-03 09:30:40

Python實現網頁爬蟲的實現，可以幫助用戶輕松的實現網頁的離線查看，那么在這篇文章中，我們將會通過一段代碼為大家詳細解讀相關操作方法。

Python是一款功能強大的計算機程序語言，同時也可以被看做是一款面向對象的通用型語言。它的功能特點比較突出，極大的方便開發人員應用。在這里我們先來一起了解一下有關Python市縣網頁爬蟲的方法。

今天看到一個網頁，又因為在家里用電話線上網，一直在線閱讀很麻煩。所以就寫了個簡單的程序把網頁抓下來離線閱讀，省點電話費：）這個程序因為主頁面鏈接到的頁面都在同一個目錄下，結構很簡單，只有一層。因此寫了一些硬編碼做鏈接地址的分析。

Python實現網頁爬蟲代碼如下：

#!/usr/bin/env python  
# -*- coding: GBK -*-  
import urllib  
from sgmllib import SGMLParser  
class URLLister(SGMLParser):  
def reset(self):  
SGMLParser.reset(self)  
self.urls = []  
def start_a(self, attrs):  
href = [v for k, v in attrs if k == 'href']  
if href:  
self.urls.extend(href)  
url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/' 
sock = urllib.urlopen(url)  
htmlSource = sock.read()  
sock.close()  
#print htmlSource  
f = file('jingangjing.html', 'w')  
f.write(htmlSource)  
f.close()  
mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/' 
parser = URLLister()  
parser.feed(htmlSource)  
for url in parser.urls:  
myurl = mypath + url  
print "get: " + myurl  
sock2 = urllib.urlopen(myurl)  
html2 = sock2.read()  
sock2.close()  
# 保存到文件  
print "save as: " + url  
f2 = file(url, 'w')  
f2.write(html2)  
f2.close()

以上就是我們為大家介紹的有關Python實現網頁爬蟲的實現方法。

【編輯推薦】

深度講述Python標準語言特性
深度剖析Python語言奧秘
探秘簡單強大的Python語言
對Python測試問題全解析
幾分鐘教會您Python程序配置問題

責任編輯：曹凱來源：博客園

Python實現網頁爬蟲

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python實現網頁爬蟲基本實現代碼解讀