成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python實現網頁爬蟲基本實現代碼解讀

開發 后端
Python實現網頁爬蟲的實現,可以幫助用戶輕松的實現網頁的離線查看,那么在這篇文章中,我們將會通過一段代碼為大家詳細解讀相關操作方法。

Python是一款功能強大的計算機程序語言,同時也可以被看做是一款面向對象的通用型語言。它的功能特點比較突出,極大的方便開發人員應用。在這里我們先來一起了解一下有關Python市縣網頁爬蟲的方法。

今天看到一個網頁,又因為在家里用電話線上網,一直在線閱讀很麻煩。所以就寫了個簡單的程序把網頁抓下來離線閱讀,省點電話費:)這個程序因為主頁面鏈接到的頁面都在同一個目錄下,結構很簡單,只有一層。因此寫了一些硬編碼做鏈接地址的分析。

Python實現網頁爬蟲代碼如下:

  1. #!/usr/bin/env python  
  2. # -*- coding: GBK -*-  
  3. import urllib  
  4. from sgmllib import SGMLParser  
  5. class URLLister(SGMLParser):  
  6. def reset(self):  
  7. SGMLParser.reset(self)  
  8. self.urls = []  
  9. def start_a(self, attrs):  
  10. href = [v for k, v in attrs if k == 'href']  
  11. if href:  
  12. self.urls.extend(href)  
  13. url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/' 
  14. sock = urllib.urlopen(url)  
  15. htmlSource = sock.read()  
  16. sock.close()  
  17. #print htmlSource  
  18. f = file('jingangjing.html', 'w')  
  19. f.write(htmlSource)  
  20. f.close()  
  21. mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/' 
  22. parser = URLLister()  
  23. parser.feed(htmlSource)  
  24. for url in parser.urls:  
  25. myurl = mypath + url  
  26. print "get: " + myurl  
  27. sock2 = urllib.urlopen(myurl)  
  28. html2 = sock2.read()  
  29. sock2.close()  
  30. # 保存到文件  
  31. print "save as: " + url  
  32. f2 = file(url, 'w')  
  33. f2.write(html2)  
  34. f2.close() 

以上就是我們為大家介紹的有關Python實現網頁爬蟲的實現方法。

【編輯推薦】

  1. 深度講述Python標準語言特性
  2. 深度剖析Python語言奧秘
  3. 探秘簡單強大的Python語言
  4. 對Python測試問題全解析
  5. 幾分鐘教會您Python程序配置問題
責任編輯:曹凱 來源: 博客園
相關推薦

2010-02-06 09:46:46

C++單向鏈表

2010-08-04 11:37:44

PHP NFS

2010-07-17 00:53:50

CMD Telnet

2010-03-05 13:38:13

Python數據轉換

2010-06-04 14:24:12

Linux 查看網絡流

2009-12-18 16:12:11

Ruby加密

2010-09-13 14:17:42

CSS縱向導航菜單

2021-04-15 21:21:59

代碼熱Python函數

2017-05-16 15:33:42

Python網絡爬蟲核心技術框架

2010-06-24 17:57:45

chkconfig h

2010-02-06 13:42:36

C++單件模式

2024-08-19 09:04:50

2010-06-17 15:01:24

Linux查看磁盤空間

2020-04-02 15:39:51

代碼編譯器前端

2010-03-03 13:32:08

Python壓縮文件

2011-08-29 11:25:29

清空service bSQL Server

2017-08-09 15:27:33

python爬蟲開發工具

2010-02-01 13:34:07

C++獲得系統時間

2023-11-09 09:28:09

Java代碼

2017-10-26 15:17:06

Python爬蟲框架歌曲下載
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产福利在线播放 | 天天爱天天操 | 久久中文字幕一区 | 成年免费视频 | 国产www成人 | 日韩不卡一区二区 | 久久国产精品色av免费观看 | 国产精品久久久久久久久久免费看 | 欧美日韩中 | 精品乱码久久久久 | 99久久国产综合精品麻豆 | 日韩欧美网 | 亚洲成人一区二区三区 | 亚洲精品久久久久久久久久吃药 | www国产亚洲精品久久网站 | 高清国产午夜精品久久久久久 | 国产激情在线观看 | 蜜桃综合在线 | 国产资源在线视频 | 91精品国产99 | 亚洲精品乱码8久久久久久日本 | 欧洲色| a看片| 国产传媒视频在线观看 | 精品国产区 | 精品一区二区三区91 | 夜久久| 久久久久网站 | 91久久精品一区二区二区 | 午夜精品久久久久久久久久久久久 | 精品国产精品三级精品av网址 | av免费网站在线 | 免费成人高清 | 在线观看www | 欧美 日韩 中文 | 91免费福利在线 | 亚洲 中文 欧美 日韩 在线观看 | 亚洲成人精品在线观看 | 狠狠夜夜| 亚洲精品av在线 | 日本在线看片 |