Python實現網頁爬蟲基本實現代碼解讀
作者:佚名
Python實現網頁爬蟲的實現,可以幫助用戶輕松的實現網頁的離線查看,那么在這篇文章中,我們將會通過一段代碼為大家詳細解讀相關操作方法。
Python是一款功能強大的計算機程序語言,同時也可以被看做是一款面向對象的通用型語言。它的功能特點比較突出,極大的方便開發人員應用。在這里我們先來一起了解一下有關Python市縣網頁爬蟲的方法。
今天看到一個網頁,又因為在家里用電話線上網,一直在線閱讀很麻煩。所以就寫了個簡單的程序把網頁抓下來離線閱讀,省點電話費:)這個程序因為主頁面鏈接到的頁面都在同一個目錄下,結構很簡單,只有一層。因此寫了一些硬編碼做鏈接地址的分析。
Python實現網頁爬蟲代碼如下:
- #!/usr/bin/env python
- # -*- coding: GBK -*-
- import urllib
- from sgmllib import SGMLParser
- class URLLister(SGMLParser):
- def reset(self):
- SGMLParser.reset(self)
- self.urls = []
- def start_a(self, attrs):
- href = [v for k, v in attrs if k == 'href']
- if href:
- self.urls.extend(href)
- url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
- sock = urllib.urlopen(url)
- htmlSource = sock.read()
- sock.close()
- #print htmlSource
- f = file('jingangjing.html', 'w')
- f.write(htmlSource)
- f.close()
- mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
- parser = URLLister()
- parser.feed(htmlSource)
- for url in parser.urls:
- myurl = mypath + url
- print "get: " + myurl
- sock2 = urllib.urlopen(myurl)
- html2 = sock2.read()
- sock2.close()
- # 保存到文件
- print "save as: " + url
- f2 = file(url, 'w')
- f2.write(html2)
- f2.close()
以上就是我們為大家介紹的有關Python實現網頁爬蟲的實現方法。
【編輯推薦】
責任編輯:曹凱
來源:
博客園