成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

零基礎(chǔ)不知道如何做Python爬蟲,這是一份簡單入門的教程!

開發(fā) 后端
隨著互聯(lián)網(wǎng)的數(shù)據(jù)爆炸式增長,而利用Python爬蟲我們可以獲取大量有價值的數(shù)據(jù)。掌握正確的方法,在短時間內(nèi)做到能夠爬取主流網(wǎng)站的數(shù)據(jù),其實(shí)非常容易實(shí)現(xiàn)。

隨著互聯(lián)網(wǎng)的數(shù)據(jù)爆炸式增長,而利用Python爬蟲我們可以獲取大量有價值的數(shù)據(jù):

[[234002]]

1.爬取數(shù)據(jù),進(jìn)行市場調(diào)研和商業(yè)分析

爬取知乎優(yōu)質(zhì)答案,篩選各話題下最優(yōu)質(zhì)的內(nèi)容; 抓取房產(chǎn)網(wǎng)站買賣信息,分析房價變化趨勢、做不同區(qū)域的房價分析;爬取招聘網(wǎng)站職位信息,分析各行業(yè)人才需求情況及薪資水平。

2.作為機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的原始數(shù)據(jù)

比如你要做一個推薦系統(tǒng),那么你可以去爬取更多維度的數(shù)據(jù),做出更好的模型。

3.爬取優(yōu)質(zhì)的資源:圖片、文本、視頻

爬取商品的評論以及各種圖片網(wǎng)站,獲得圖片資源以及評論文本數(shù)據(jù)。

掌握正確的方法,在短時間內(nèi)做到能夠爬取主流網(wǎng)站的數(shù)據(jù),其實(shí)非常容易實(shí)現(xiàn)。

首先我們來了解爬蟲的基本原理及過程

大部分爬蟲都是按“發(fā)送請求——獲得頁面——解析頁面——抽取并儲存內(nèi)容”這樣的流程來進(jìn)行,這其實(shí)也是模擬了我們使用瀏覽器獲取網(wǎng)頁信息的過程。

簡單來說,我們向服務(wù)器發(fā)送請求后,會得到返回的頁面,通過解析頁面之后,我們可以抽取我們想要的那部分信息,并存儲在指定的文檔或數(shù)據(jù)庫中。

在這部分你可以簡單了解 HTTP 協(xié)議及網(wǎng)頁基礎(chǔ)知識,比如 POSTGET、HTML、CSS、JS,簡單了解即可,不需要系統(tǒng)學(xué)習(xí)。

學(xué)習(xí) Python 包并實(shí)現(xiàn)基本的爬蟲過程

Python中爬蟲相關(guān)的包很多:urllib、requests、bs4、scrapy、pyspider 等,建議你從requests+Xpath 開始,requests 負(fù)責(zé)連接網(wǎng)站,返回網(wǎng)頁,Xpath 用于解析網(wǎng)頁,便于抽取數(shù)據(jù)。

如果你用過 BeautifulSoup,會發(fā)現(xiàn) Xpath 要省事不少,一層一層檢查元素代碼的工作,全都省略了。掌握之后,你會發(fā)現(xiàn)爬蟲的基本套路都差不多,一般的靜態(tài)網(wǎng)站根本不在話下,小豬、豆瓣、糗事百科、騰訊新聞等基本上都可以上手了。

存數(shù)據(jù)

首先,我們來說存數(shù)據(jù),是因?yàn)樵诔跗趯W(xué)習(xí)的時候,接觸的少,也不需要太過于關(guān)注,隨著學(xué)習(xí)的慢慢深入,我們需要保存大批量的數(shù)據(jù)的時候,就需要去學(xué)習(xí)數(shù)據(jù)庫的相關(guān)知識了!

初期,我們抓到需要的內(nèi)容后,只需要保存到本地,無非保存到文檔、表格(excel)等等幾個方法,這里大家只需要掌握with語句就基本可以保證需求了。大概是這樣的:

with open(路徑以及文件名,保存模式) as f:

f.write(數(shù)據(jù))#如果是文本可直接寫入,如果是其他文件,數(shù)據(jù)為二進(jìn)制模式更好

當(dāng)然保存到excel表格或者word文檔需要用到 xlwt庫(excel)、python-docx庫(word),這個在網(wǎng)上很多,大家可以自行去學(xué)習(xí)。

取數(shù)據(jù)

說了這么多,我們來說說主題。怎么來抓取我們想要的數(shù)據(jù)呢?我們一步步的來!

一般所謂的取網(wǎng)頁內(nèi)容,指的是通過Python腳本實(shí)現(xiàn)訪問某個URL地址(請求數(shù)據(jù)),然后獲得其所返回的內(nèi)容(HTML源碼,Json格式的字符串等)。然后通過解析規(guī)則(頁面解析),分析出我們需要的數(shù)據(jù)并取(內(nèi)容匹配)出來。

在python中實(shí)現(xiàn)爬蟲非常方便,有大量的庫可以滿足我們的需求,比如先用requests庫取一個url(網(wǎng)頁)的源碼

 

  1. import requests#導(dǎo)入庫  
  2. url = '你的目標(biāo)網(wǎng)址'  
  3. response = requests.get(url) #請求數(shù)據(jù)  
  4. print(response.text) #打印出數(shù)據(jù)的文本內(nèi)容 

 

這幾行代碼就可以獲得網(wǎng)頁的源代碼,但是有時候這里面會有亂碼,為什么呢?

因?yàn)橹形木W(wǎng)站中包含中文,而終端不支持gbk編碼,所以我們在打印時需要把中文從gbk格式轉(zhuǎn)為終端支持的編碼,一般為utf-8編碼。

所以我們在打印response之前,需要對它進(jìn)行編碼的指定(我們可以直接指定代碼顯示的編碼格式為網(wǎng)頁本身的編碼格式,比如utf-8,網(wǎng)頁編碼格式一般都在源代碼中的<meta>標(biāo)簽下的charset屬性中指定)。加上一行即可。

 

  1. response.encode = 'utf-8' #指定編碼格式 

至此,我們已經(jīng)獲取了網(wǎng)頁的源代碼,接下來就是在亂七八糟的源代碼中找到我們需要的內(nèi)容,這里就需要用到各種匹配方式了,常用的幾種方式有:正則表達(dá)式(re庫),bs4(Beautifulsoup4庫),xpath(lxml庫)!

建議大家從正則開始學(xué)習(xí),最后一定要看看xpath,這個在爬蟲框架scrapy中用的很多!

通過各種匹配方式找到我們的內(nèi)容后(注意:一般匹配出來的是列表),就到了上面所說的存數(shù)據(jù)的階段了,這就完成了一個簡單的爬蟲!

當(dāng)然了,在我們具體寫代碼的時候,會發(fā)現(xiàn)很多上面沒有說到的內(nèi)容,比如

  • 獲取源代碼的時候遇到反爬,根本獲取不到數(shù)據(jù)
  • 有的網(wǎng)站需要登錄后才可以拿到內(nèi)容
  • 遇到驗(yàn)證碼
  • 獲取到內(nèi)容后寫入文件出錯
  • 怎樣來設(shè)計(jì)循環(huán),獲取大批量的內(nèi)容甚至整站爬蟲

剩下的我們再來慢慢的研究。

總結(jié)

Python爬蟲這種技術(shù),既不需要你系統(tǒng)地精通一門語言,也不需要多么高深的數(shù)據(jù)庫技術(shù),高效的姿勢就是從實(shí)際的項(xiàng)目中去學(xué)習(xí)這些零散的知識點(diǎn),你能保證每次學(xué)到的都是最需要的那部分。

當(dāng)然唯一麻煩的是,在具體的問題中,如何找到具體需要的那部分學(xué)習(xí)資源、如何篩選和甄別,是很多初學(xué)者面臨的一個大問題。 

責(zé)任編輯:龐桂玉 來源: 今日頭條
相關(guān)推薦

2019-07-16 07:52:49

NumPyPython機(jī)器學(xué)習(xí)

2021-04-13 09:09:29

DevOps流程Docker

2022-03-25 11:44:14

Scrapy爬蟲命令

2017-09-22 09:10:41

2023-09-01 14:02:25

用戶分析攻略

2018-01-29 09:28:44

2017-12-05 10:17:02

Python爬蟲零基礎(chǔ)

2011-05-25 16:59:20

前端工程師

2010-03-03 16:26:10

ubantu使用技巧

2021-01-13 14:55:54

JavaPython開發(fā)

2020-06-01 15:04:44

甲骨文自治數(shù)據(jù)庫

2020-06-12 09:20:33

前端Blob字符串

2020-07-28 08:26:34

WebSocket瀏覽器

2018-05-15 09:15:03

CNN卷積神經(jīng)網(wǎng)絡(luò)函數(shù)

2009-05-08 16:32:26

linuxLiveCDLiveUSB

2020-03-06 15:38:10

編程語言PythonJava

2019-02-21 09:13:31

圖卷積網(wǎng)絡(luò)Numpy神經(jīng)網(wǎng)絡(luò)

2017-06-30 13:23:02

2020-09-07 06:59:44

Kafka分布式場景

2021-09-02 10:57:38

Python函數(shù)數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 综合激情av | 在线观看国产网站 | 国产精品久久九九 | 国产伦精品一区二区三毛 | 欧美精品一区二区三区蜜桃视频 | 精品久久久久久亚洲精品 | 久久不卡区 | 欧美一区二区在线观看 | 五月精品视频 | 美女人人操 | 国产日韩欧美 | 日韩成人免费视频 | 亚洲综合色丁香婷婷六月图片 | 中国黄色在线视频 | 国产精品久久久久久久久久 | 天天操 天天操 | 日本午夜一区二区三区 | 精品国产久 | 国产午夜精品一区二区三区嫩草 | 91美女在线观看 | 99久久婷婷国产综合精品电影 | 一级a性色生活片久久毛片 一级特黄a大片 | 国产精品久久久久久久久免费樱桃 | 96国产精品久久久久aⅴ四区 | 亚洲图片一区二区三区 | 亚洲欧美激情四射 | 久久手机视频 | 国产成人免费 | 91精品国产高清一区二区三区 | 日韩免费视频 | 麻豆一区二区三区 | 国产精品久久久一区二区三区 | 在线一区二区三区 | 麻豆va | 欧美h版| 99pao成人国产永久免费视频 | 精品99在线 | 国产精品国产三级国产aⅴ中文 | 欧美一区二区综合 | 蜜桃传媒av| 伊人网站视频 |