成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python網頁爬蟲制作DIY實際操作

開發 后端
Python爬蟲編寫是一個很有意思的事情,有很多有趣的知識需要我們去學習,下面我們就來看看在編寫Python網頁爬蟲的時候具體需要怎么做。

Python網頁爬蟲在實際的使用中需要我們注意很多的地方,其實有的東西大家看著難但是在實際操作起來的話都很簡單。下面我們就來學習下如何自己動手編寫一個Python網頁爬蟲。

這個程序因為主頁面鏈接到的頁面都在同一個目錄下,結構很簡單,只有一層。因此寫了一些硬編碼做鏈接地址的分析。
代碼如下:

  1. #!/usr/bin/env python  
  2. # -*- coding: GBK -*-  
  3. import urllib  
  4. from sgmllib import SGMLParser  
  5. class URLLister(SGMLParser):  
  6. def reset(self):  
  7. SGMLParser.reset(self)  
  8. self.urls = []  
  9. def start_a(self, attrs):  
  10. href = [v for k, v in attrs if k == 'href']  
  11. if href:  
  12. self.urls.extend(href)  
  13. url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJi
    ngShuoShenMo/'
     
  14. sock = urllib.urlopen(url)  
  15. htmlSource = sock.read()  
  16. sock.close()  
  17. #print htmlSource  
  18. f = file('jingangjing.html', 'w')  
  19. f.write(htmlSource)  
  20. f.close()  
  21. mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGan
    gJingShuoShenMo/'
     
  22. parser = URLLister()  
  23. parser.feed(htmlSource)  
  24. for url in parser.urls:  
  25. myurl = mypath + url  
  26. print "get: " + myurl  
  27. sock2 = urllib.urlopen(myurl)  
  28. html2 = sock2.read()  
  29. sock2.close()  
  30. # 保存到文件  
  31. print "save as: " + url  
  32. f2 = file(url, 'w')  
  33. f2.write(html2)  
  34. f2.close() 

以上就是對Python網頁爬蟲在編寫過程中的詳細介紹。

【編輯推薦】

  1. Python腳本解決在游戲開發中的困難
  2. 簡述Python語言經驗總結
  3. Python對象主要特征解析
  4. Python顯示UTF-8中文文本具體操作方法講解
  5. Python綁定C++程序具體實現方法淺談
責任編輯:張浩 來源: 互聯網
相關推薦

2010-03-09 18:55:27

Python djan

2010-03-10 19:00:20

Pythonnext函

2010-03-05 15:07:35

Python優化圖片

2010-03-12 15:29:19

Pythonexe

2010-05-10 10:19:28

Oracle實戰RMA

2010-03-16 12:39:09

python for

2010-06-01 15:54:46

MySQL-pytho

2010-03-25 17:28:41

Python配置

2010-04-01 14:06:13

Oracle Name

2010-05-19 10:37:06

MySQL expla

2010-04-20 11:06:33

Oracle索引

2010-04-14 17:06:41

Oracle安裝路徑

2010-04-16 13:59:40

Oracle數據

2010-05-18 17:39:13

MySQL alter

2010-03-31 16:11:00

Oracle啟動

2010-04-01 13:39:43

Oracle Name

2010-06-12 13:39:33

MySQL操作blob

2020-04-28 15:10:12

OpenCV Pyth閾值Linux

2010-03-17 13:14:00

Python Libr

2010-03-15 16:54:11

Python字典
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩精品a在线观看图片 | 狠狠狠 | 国产不卡视频在线 | 欧美在线一二三 | 国产视频久久久 | 久久精品av麻豆的观看方式 | 三区在线观看 | 国产91丝袜在线熟 | 高清久久久| 亚洲成人免费网址 | 国产精品视频一二三 | 欧美日本一区 | 午夜影晥| 日韩在线资源 | 国产日韩欧美另类 | 国产一区二区三区在线 | 一本色道精品久久一区二区三区 | 午夜综合 | 精品久久久久久久 | 国产高清视频一区 | 国产欧美一区二区三区日本久久久 | 久久精品国产一区二区三区不卡 | 国产中文字幕在线观看 | 精品一区二区三区在线观看 | 成人免费视频在线观看 | 四色永久| 午夜专区 | 久久一区二区三区四区五区 | 午夜小视频在线播放 | 久久在线| 天天人人精品 | 国产一区二区三区四区 | 做a视频| 黄色毛片网站在线观看 | 色爱区综合 | 四色永久 | 午夜寂寞网站 | 精品久久香蕉国产线看观看亚洲 | 永久www成人看片 | 欧美一区二区在线免费观看 | 亚洲国产一区在线 |