成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

有關Python模塊內容說明介紹

開發 后端
使用Python語言提供的Python模塊,我們就不用借助Web服務器或者Web瀏覽器就能夠解析和處理HTML文檔,還可以進行解析處理工作。

Python語言中具有大量優秀的庫可以被直接調用以高效地完成不同需求的工作,這里列舉一些常見常用的庫,和一些Python模塊,在Python程序中調用C++開發的擴展功能函數。

本文將詳細介紹如何利用Python抓取和解析網頁。首先,我們介紹一個可以幫助簡化打開位于本地和Web上的HTML文檔的Python模塊。后,我們論述如何使用Python模塊來迅速解析在HTML文件中的數據,從而處理特定的內容,如鏈接、圖像和Cookie等。

最后,我們會給出一個規整HTML文件的格式標簽的例子,通過這個例子您會發現使用python處理HTML文件的內容是非常簡單的一件事情。通過Python所帶的urlparse模塊,我們能夠輕松地把URL分解成元件,之后,還能將這些元件重新組裝成一個URL。當我們處理HTML 文檔的時候,這項功能是非常方便的。

  1. import urlparse  
  2.  
  3.   parsedTuple = urlparse.urlparse(  
  4.  
  5.   "http://www.google.com/search?  
  6.  
  7.   hl=en&q=urlparse&btnG=Google+Search")  
  8.  
  9.   unparsedURL = urlparse.urlunparse((URLscheme, \  
  10.  
  11.   URLlocation, URLpath, '', '', ''))  
  12.  
  13.   newURL = urlparse.urljoin(unparsedURL,  
  14.  
  15.   "/module-urllib2/request-objects.html") 

函數urlparse(urlstring [, default_scheme [, allow_fragments]])的作用是將URL分解成不同的組成部分,它從urlstring中取得URL,并返回元組 (scheme, netloc, path, parameters, query, fragment)。注意,返回的這個元組非常有用,例如可以用來確定網絡協議(HTTP、FTP等等 )、服務器地址、文件路徑,等等。

函數urlunparse(tuple)的作用是將URL的組件裝配成一個URL,它接收元組(scheme, netloc, path, parameters, query, fragment)后,會重新組成一個具有正確格式的URL,以便供Python的其他HTML解析模塊使用。

函數urljoin(base, url [, allow_fragments]) 的作用是拼接URL,它以第一個參數作為其基地址,然后與第二個參數中的相對地址相結合組成一個絕對URL地址。函數urljoin在通過為URL基地址附加新的文件名的方式來處理同一位置處的若干文件的時候格外有用。

需要注意的是,如果基地址并非以字符/結尾的話,那么URL基地址最右邊部分就會被這個相對路徑所替換。比如,URL的基地址為Http://www.testpage.com/pub,URL的相對地址為test.html,那么兩者將合并成如果希望在該路徑中保留末端目錄,應確保URL基地址以字符/結尾。

下面是上面幾個函數的詳細一點的用法舉例:

  1. Date: Fri, 26 Jun 2009 10:22:11 GMT  
  2.  
  3.   Server: Apache/2.2.9 (Debian) DAV/2 SVN/1.5.1 mod_ssl/2.2.9 OpenSSL/0.9.8g mod_wsgi/2.3 Python/2.5.2  
  4.  
  5.   Last-Modified: Thu, 25 Jun 2009 09:44:54 GMT  
  6.  
  7.   ETag: "105800d-46e7-46d29136f7180"  
  8.  
  9.   Accept-Ranges: bytes  
  10.  
  11.   Content-Length: 18151  
  12.  
  13.   Connection: close  
  14.  
  15.   Content-Type: text/html  
  16.  
  17.   從http://www.python.org讀取了18151 字節數據.  
  18.  
  19.   Content-Type: text/html  
  20.  
  21.   Content-Length: 865  
  22.  
  23.   Last-modified: Fri, 26 Jun 2009 10:16:10 GMT  
  24.  
  25.   從index.html讀取了865 字節數據. 

若要通過urllib模塊中的urlopen(url [,data])函數打開一個HTML文檔,必須提供該文檔的URL地址,包括文件名。函數urlopen不僅可以打開位于遠程web服務器上的文件,而且可以打開一個本地文件,并返回一個類似文件的對象,我們可以通過該對象從HTML文檔中讀出數據。

一旦打開了HTML文檔,我們就可以像使用常規文件一樣使用read([nbytes])、readline()和readlines()函數來對文件進行讀操作。若要讀取整個HTML文檔的內容的話,您可以使用read()函數,該函數將文件內容作為字符串返回。

打開一個地址之后,您可以使用Python模塊取得被獲取網頁的真正的URL。這是很有用的,因為urlopen(或使用的opener對象)也許會伴隨一個重定向。獲取的網頁URL也許和要求的網頁URL不一樣。

另一個常用的函數是位于從urlopen返回的類文件對象中的info()函數,這個函數可以返回URL位置有關的元數據,比如內容長度、內容類型,等等。下面通過一個較為詳細的例子來對這些函數進行說明。

【編輯推薦】

  1. 有關Python系統文件進行介紹指導
  2. 如何正確的使用Python函數
  3. 對Python 構建工具進行詳細介紹分析
  4. PythonAndroid淺析Python優勢所在
  5. 如何使用Python模塊解析配置文件?
責任編輯:chenqingxiang 來源: csdn
相關推薦

2010-02-02 14:54:28

Python語法

2010-02-01 17:11:45

Python 解釋器

2010-02-24 17:22:59

Python項目

2010-02-22 14:42:19

Python 控制語句

2010-02-01 16:32:49

Python腳本

2010-02-26 11:20:53

Python應用

2010-03-03 17:50:45

Android圖形界面

2009-12-25 17:11:40

ADO方法

2010-03-02 13:51:05

Android開發平臺

2010-03-10 11:26:29

交換機配置

2010-02-02 13:05:58

Python代碼

2010-02-03 13:27:17

Python 特性

2010-03-01 10:39:18

Python源代碼

2010-03-10 16:32:17

光端交換機

2010-02-01 18:06:48

Python Edit

2010-02-22 16:16:14

Python語法

2010-02-02 13:28:46

Python變量

2010-02-03 17:37:30

Python語法

2010-02-22 13:20:58

Python中文問題

2010-02-03 16:03:44

Python系統文件
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91国自视频| 涩爱av一区二区三区 | 91欧美精品 | 久久精品国产一区二区电影 | 一区二区在线看 | av一区二区三区四区 | 99久久婷婷国产综合精品首页 | 久精品久久| 天天天操 | 日本三级网站在线观看 | 国产日韩欧美精品一区二区三区 | 久久成人精品视频 | 中文字幕高清av | 巨大荫蒂视频欧美另类大 | 欧美日韩久久 | 午夜精品一区二区三区在线视 | 中文字幕久久精品 | 国产黄色在线观看 | 黄a免费网络 | 一级黄色片毛片 | 久久精品色视频 | 视频一二三区 | 国产一区二区观看 | 香蕉视频一区二区 | 亚洲国产免费 | 亚洲一区国产精品 | 亚洲精品久久久久久一区二区 | 精品国产欧美日韩不卡在线观看 | 亚洲精品久久久久久久久久吃药 | 国产丝袜一区二区三区免费视频 | 欧美一区二区三区在线 | 午夜免费在线 | 色秀网站 | 日韩视频在线观看一区二区 | 一区二区三区电影在线观看 | 日本不卡在线观看 | 亚洲欧美aⅴ| 中文字幕视频在线观看 | 国产成人jvid在线播放 | 欧美片网站免费 | 国产精品无码永久免费888 |