使用Python輕松收集Web站點數據
使用基本的Python模塊,可以編寫腳本來與Web站點交互,但是如果沒有必要的話,那么您就不希望這樣做。Python2.x中的模塊urllib和urllib2,以及Python3.0中的統一的urllib.*子包,可以在URL的末尾獲取資源。然而,當您希望與Web頁面中找到的內容進行某種比較復雜的交互時,您需要使用mechanize庫。
51CTO推薦專題: Python實用開發指南
在自動化Webscrap或用戶與Web站點的交互模擬中,最大的困難之一就是服務器使用cookies跟蹤會話進度。顯然,cookies是HTTP頭部的一部分,在urllib打開資源時會自然顯示出來。
即使如此,在這個層次上執行處理也非常的繁瑣。mechanize庫將這種處理提升到一個更高程度的抽象并使您的腳本—或交互性Pythonshell—表現出非常類似實際Web瀏覽器的行為。
Python的mechanize受到Perl的WWW:Mechanize的啟發,后者具有類似的一組功能。當然,作為長期的Python支持者,我認為mechanize更健壯,它看上去似乎繼承了兩種語言的通用模式。
mechanize的一個親密伙伴是同樣出色的BeautifulSoup庫。這是一個非常神奇的“粗糙的解析器”,用于解析實際Web頁面中包含的有效HTML。您不需要將BeautifulSoup用于mechanize,反之亦然,但是多半情況下,當您與“實際存在的Web”交互時,您將希望同時使用這兩種工具。
一個實際示例
我曾在多個編程項目中使用過mechanize。最近一個項目是從一個流行的Web站點中收集匹配某種條件的名稱的列表。該站點提供了一些搜索工具,但是沒有提供任何正式的API來執行此類搜索。雖然訪問者可能能夠更明確地猜出我過去在做什么,但我將修改給出的代碼的細節,以避免暴露有關被scrap的站點或我的客戶機的過多信息。一般情況下,我給出的代碼對于類似任務是通用的。
入門工具
在實際開發Webscrap/分析代碼的過程中,我發現以交互式方式查看、處理和分析Web頁面的內容以了解相關Web頁面實際發生的操作是非常重要的功能。通常,站點中的一些頁面是由查詢動態生成(但是具有一致的模式),或是根據非常嚴格的模板預先生成。
完成這種交互式體驗的一種重要方法就是在Pythonshell內使用mechanize本身,特別是在一個增強的shell內,比如IPython。通過這種方式,您可以在編寫執行希望用于生產中的交互的最終腳本之前,請求各種已鏈接的資源、提交表單、維護或操作站點cookies,等等。
然而,我發現我與Web站點的許多實驗性質的交互在實際的現代Web瀏覽器中得到了更好的執行。方便地呈現頁面可以使您更加快速地了解給定頁面或表單中正在發生的事情。問題在于,呈現頁面僅僅完成了事情的一半,可能還不到一半。獲得“頁面源代碼”會讓您更進一步。要真正理解給定Web頁面或與Web服務器的一系列交互的背后的原理,需要了解更多。
要了解這些內容,我常常使用Firebug或面向Firefox的WebDeveloper插件。所有這些工具都可以執行諸如顯示表單字段、顯示密碼、檢查頁面的DOM、查看或運行Javascript、觀察Ajax通信等操作。比較這些工具的優劣需要另外撰寫一篇文章,但是如果您要進行面向Web的編程的話,那么必須熟悉這些工具。
不管使用哪一種工具來對準備實現自動化交互的Web站點做實驗,您都需要花比編寫簡潔的mechanize代碼(用于執行您的任務)更多的時間來了解站點實際發生的行為。
搜索結果scraper
考慮到上面提到的項目的意圖,我將把包含100行代碼的腳本分為兩個功能:
◆檢索所有感興趣的結果
◆從被檢索的頁面中拉取我感興趣的信息
使用這種方式組織腳本是為了便于開發;當我開始任務時,我需要知道如何完成這兩個功能。我覺得我需要的信息位于一個普通的頁面集合中,但是我還沒有檢查這些頁面的具體布局。
首先我將檢索一組頁面并將它們保存到磁盤,然后執行第二個任務,從這些已保存的文件中拉取所需的信息。當然,如果任務涉及使用檢索到的信息構成同一會話內的新交互,那么您將需要使用順序稍微不同的開發步驟。因此,首先讓我們查看我的fetch()函數:
- 清單1.獲取頁面內容
- importsys,time,os
- frommechanizeimportBrowser
- LOGIN_URL='http://www.example.com/login'
- USERNAME='DavidMertz'
- PASSWORD='TheSpanishInquisition'
- SEARCH_URL='http://www.example.com/search?'
- FIXED_QUERY='food=spam&''utensil=spork&''date=the_future&'
- VARIABLE_QUERY=['actor=%s'%actorforactorin
- ('GrahamChapman',
- 'JohnCleese',
- 'TerryGilliam',
- 'EricIdle',
- 'TerryJones',
- 'MichaelPalin')]
- deffetch():
- result_no=0#Numbertheoutputfiles
- br=Browser()#Createabrowser
- br.open(LOGIN_URL)#Opentheloginpage
- br.select_form(name="login")#Findtheloginform
- br['username']=USERNAME#Settheformvalues
- br['password']=PASSWORD
- resp=br.submit()#Submittheform
- #Automaticredirectsometimesfails,followmanuallywhenneeded
- if'Redirecting'inbr.title():
- resp=br.follow_link(text_regex='clickhere')
- #Loopthroughthesearches,keepingfixedqueryparameters
- foractorininVARIABLE_QUERY:
- #Iliketowatchwhat'shappeningintheconsole
- print>>sys.stderr,'***',actor
- #Letsdotheactualquerynow
- br.open(SEARCH_URL+FIXED_QUERY+actor)
- #Thequeryactuallygivesuslinkstothecontentpageswelike,
- #buttherearesomeotherlinksonthepagethatweignore
- nice_links=[lforlinbr.links()
- if'good_path'inl.url
- and'credential'inl.url]
- ifnotnice_links:#Maybetherelevantresultsareempty
- break
- forlinkinnice_links:
- try:
- response=br.follow_link(link)
- #Moreconsolereportingontitleoffollowedlinkpage
- print>>sys.stderr,br.title()
- #Incrementoutputfilenames,openandwritethefile
- result_no+=1
- out=open(result_%04d'%result_no,'w')
- print>>out,response.read()
- out.close()
- #Nothingevergoesperfectly,ignoreifwedonotgetpage
- exceptmechanize._response.httperror_seek_wrapper:
- print>>sys.stderr,"Responseerror(probably404)"
- #Let'snothammerthesitetoomuchbetweenfetches
- time.sleep(1)
對感興趣的站點進行交互式研究后,我發現我希望執行的查詢含有一些固定的元素和一些變化的元素。我僅僅是將這些元素連接成一個大的GET請求并查看“results”頁面。而結果列表包含了我實際需要的資源的鏈接。
因此,我訪問這些鏈接(當此過程出現某些錯誤時,會拋出try/except塊)并保存在這些內容頁面上找到的任何內容。很簡單,是不是?Mechanize可以做的不止這些,但是這個簡單的例子向您展示了Mechanize的大致功能。
#p#
處理結果
現在,我們已經完成了對mechanize的操作;剩下的工作是理解在fetch()循環期間保存的大量HTML文件。批量處理特性讓我能夠在一個不同的程序中將這些文件整齊、明顯地分離開來,fetch()和process()可能交互得更密切。BeautifulSoup使得后期處理比初次獲取更加簡單。對于這個批處理任務,我們希望從獲取的各種Web頁面的零散內容中生成表式的以逗號分隔的值(CSV)數據。
- 清單2.使用BeautifulSoup從無序的內容中生成整齊的數據
- fromglobimportglob
- fromBeautifulSoupimportBeautifulSoup
- defprocess():
- print"!MOVIE,DIRECTOR,KEY_GRIP,THE_MOOSE"
- forfnameinglob('result_*'):
- #PutthatsloppyHTMLintothesoup
- soup=BeautifulSoup(open(fname))
- #Trytofindthefieldswewant,butdefaulttounknownvalues
- try:
- movie=soup.findAll('span',{'class':'movie_title'})[1].contents[0]
- exceptIndexError:
- fname="UNKNOWN"
- try:
- director=soup.findAll('div',{'class':'director'})[1].contents[0]
- exceptIndexError:
- lname="UNKNOWN"
- try:
- #Maybemultiplegripslisted,keyoneshouldbeinthere
- grips=soup.findAll('p',{'id':'grip'})[0]
- grips="".join(grips.split())#Normalizeextraspaces
- exceptIndexError:
- title="UNKNOWN"
- try:
- #HidesomestuffintheHTML<meta>tags
- moose=soup.findAll('meta',{'name':'shibboleth'})[0]['content']
- exceptIndexError:
- moose="UNKNOWN"
- print'"%s","%s","%s","%s"'%(movie,director,grips,moose)
第一次查看BeautifulSoup,process()中的代碼令人印象深刻。讀者應當閱讀有關文檔來獲得關于這個模塊的更多細節,但是這個代碼片段很好地體現了它的整體風格。大多數soup代碼包含一些對只含有格式良好的HTML的頁面的.findAll()調用。這里是一些類似DOM的.parent、nextSibling和previousSibling屬性。它們類似于Web瀏覽器的“quirks”模式。我們在soup中找到的內容并不完全是一個解析樹。
結束語
諸如我之類的守舊者,甚至于一些更年輕的讀者,都會記住使用TCLExpect(或使用用Python和其他許多語言編寫的類似內容)編寫腳本帶來的愉悅。自動化與shell的交互,包括telnet、ftp、ssh等等遠程shell,變得非常的直觀,因為會話中的所有內容都被顯示出來。
Web交互變得更加細致,因為信息被分為頭部和內容體,并且各種相關的資源常常通過href鏈接、框架、Ajax等被綁定在一起。然而,總的來說,您可以使用wget之類的工具來檢索Web服務器提供的所有字節,然后像使用其他連接協議一樣運行與Expect風格完全相同的腳本。
在實踐中,幾乎沒有編程人員過分執著于過去的老方法,比如我建議的wget+Expect方法。Mechanize保留了許多與出色的Expect腳本相同的東西,令人感覺熟悉和親切,并且和Expect一樣易于編寫(如果不是更簡單的話)。
Browser()對象命令,比如.select_form()、.submit()和.follow_link(),真的是實現“查找并發送”操作的最簡單、最明顯的方法,同時綁定了我們希望在Web自動化框架中具備的復雜狀態和會話處理的所有優點。
【編輯推薦】