成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

想要學(xué)會(huì)Python爬蟲,就必須從零開始!

開發(fā) 后端
簡單來說互聯(lián)網(wǎng)是由一個(gè)個(gè)站點(diǎn)和網(wǎng)絡(luò)設(shè)備組成的大網(wǎng),我們通過瀏覽器訪問站點(diǎn),站點(diǎn)把HTML、JS、CSS代碼返回給瀏覽器,這些代碼經(jīng)過瀏覽器解析、渲染,將豐富多彩的網(wǎng)頁呈現(xiàn)我們眼前?!?/div>

[[240662]]

前言

簡單來說互聯(lián)網(wǎng)是由一個(gè)個(gè)站點(diǎn)和網(wǎng)絡(luò)設(shè)備組成的大網(wǎng),我們通過瀏覽器訪問站點(diǎn),站點(diǎn)把HTML、JS、CSS代碼返回給瀏覽器,這些代碼經(jīng)過瀏覽器解析、渲染,將豐富多彩的網(wǎng)頁呈現(xiàn)我們眼前。 

一、爬蟲是什么?

如果我們把互聯(lián)網(wǎng)比作一張大的蜘蛛網(wǎng),數(shù)據(jù)便是存放于蜘蛛網(wǎng)的各個(gè)節(jié)點(diǎn),而爬蟲就是一只小蜘蛛,沿著網(wǎng)絡(luò)抓取自己的獵物(數(shù)據(jù))爬蟲指的是:向網(wǎng)站發(fā)起請(qǐng)求,獲取資源后分析并提取有用數(shù)據(jù)的程序;從技術(shù)層面來說就是通過程序模擬瀏覽器請(qǐng)求站點(diǎn)的行為,把站點(diǎn)返回的HTML代碼/JSON數(shù)據(jù)/二進(jìn)制數(shù)據(jù)(圖片、視頻) 爬到本地,進(jìn)而提取自己需要的數(shù)據(jù),存放起來使用。

二、爬蟲的基本流程:

用戶獲取網(wǎng)絡(luò)數(shù)據(jù)的方式:

方式1:瀏覽器提交請(qǐng)求--->下載網(wǎng)頁代碼--->解析成頁面

方式2:模擬瀏覽器發(fā)送請(qǐng)求(獲取網(wǎng)頁代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫或文件中

爬蟲要做的就是方式2;

Python爬蟲原理!想要學(xué)會(huì)爬蟲,就必須從零開始!

 

1、發(fā)起請(qǐng)求

使用http庫向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求,即發(fā)送一個(gè)Request

Request包含:請(qǐng)求頭、請(qǐng)求體等

Request模塊缺陷:不能執(zhí)行JS 和CSS 代碼

2、獲取響應(yīng)內(nèi)容

如果服務(wù)器能正常響應(yīng),則會(huì)得到一個(gè)Response

Response包含:html,json,圖片,視頻等

3、解析內(nèi)容

解析html數(shù)據(jù):正則表達(dá)式(RE模塊),第三方解析庫如Beautifulsoup,pyquery等

解析json數(shù)據(jù):json模塊

解析二進(jìn)制數(shù)據(jù):以wb的方式寫入文件

4、保存數(shù)據(jù)

數(shù)據(jù)庫(MySQL,Mongdb、Redis)

文件

三、http協(xié)議 請(qǐng)求與響應(yīng) 

Request:用戶將自己的信息通過瀏覽器(socket client)發(fā)送給服務(wù)器(socketserver

Response:服務(wù)器接收請(qǐng)求,分析用戶發(fā)來的請(qǐng)求信息,然后返回?cái)?shù)據(jù)(返回的數(shù)據(jù)中可能包含其他鏈接,如:圖片,js,css等)

ps:瀏覽器在接收Response后,會(huì)解析其內(nèi)容來顯示給用戶,而爬蟲程序在模擬瀏覽器發(fā)送請(qǐng)求然后接收Response后,是要提取其中的有用數(shù)據(jù)。

四、 request

1、請(qǐng)求方式:

常見的請(qǐng)求方式:GET / POST

2、請(qǐng)求的URL

url全球統(tǒng)一資源定位符,用來定義互聯(lián)網(wǎng)上一個(gè)***的資源 例如:一張圖片、一個(gè)文件、一段視頻都可以用url***確定

url編碼

https://www.baidu.com/s?wd=圖片

圖片會(huì)被編碼(看示例代碼)

網(wǎng)頁的加載過程是:

加載一個(gè)網(wǎng)頁,通常都是先加載document文檔,

在解析document文檔的時(shí)候,遇到鏈接,則針對(duì)超鏈接發(fā)起下載圖片的請(qǐng)求

3、請(qǐng)求頭

User-agent:請(qǐng)求頭中如果沒有user-agent客戶端配置,服務(wù)端可能將你當(dāng)做一個(gè)非法用戶host;

cookies:cookie用來保存登錄信息

注意: 一般做爬蟲都會(huì)加上請(qǐng)求頭[[240664]]

 Python爬蟲原理!想要學(xué)會(huì)爬蟲,就必須從零開始! 

請(qǐng)求頭需要注意的參數(shù):

(1)Referrer:訪問源至哪里來(一些大型網(wǎng)站,會(huì)通過Referrer 做防盜鏈策略;所有爬蟲也要注意模擬)

(2)User-Agent:訪問的瀏覽器(要加上否則會(huì)被當(dāng)成爬蟲程序)

(3)cookie:請(qǐng)求頭注意攜帶

4、請(qǐng)求體

請(qǐng)求體

如果是get方式,請(qǐng)求體沒有內(nèi)容 (get請(qǐng)求的請(qǐng)求體放在 url后面參數(shù)中,直接能看到)

如果是post方式,請(qǐng)求體是format data

ps:

1、登錄窗口,文件上傳等,信息都會(huì)被附加到請(qǐng)求體內(nèi)

2、登錄,輸入錯(cuò)誤的用戶名密碼,然后提交,就可以看到post,正確登錄后頁面通常會(huì)跳轉(zhuǎn),無法捕捉到post

五、 響應(yīng)Response

1、響應(yīng)狀態(tài)碼

200:代表成功

301:代表跳轉(zhuǎn)

404:文件不存在

403:無權(quán)限訪問

502:服務(wù)器錯(cuò)誤

2、respone header

響應(yīng)頭需要注意的參數(shù):

(1)Set-Cookie:BDSVRTM=0; path=/:可能有多個(gè),是來告訴瀏覽器,把cookie保存下來

(2)Content-Location:服務(wù)端響應(yīng)頭中包含Location返回瀏覽器之后,瀏覽器就會(huì)重新訪問另一個(gè)頁面

3、preview就是網(wǎng)頁源代碼

JSO數(shù)據(jù)

如網(wǎng)頁html,圖片

二進(jìn)制數(shù)據(jù)等

六、總結(jié)

1、總結(jié)爬蟲流程:

爬取--->解析--->存儲(chǔ)

2、爬蟲所需工具:

請(qǐng)求庫:requests,selenium(可以驅(qū)動(dòng)瀏覽器解析渲染CSS和JS,但有性能劣勢(shì)(有用沒用的網(wǎng)頁都會(huì)加載);)

解析庫:正則,beautifulsoup,pyquery

存儲(chǔ)庫:文件,MySQL,Mongodb,Redis 

 

責(zé)任編輯:龐桂玉 來源: 今日頭條
相關(guān)推薦

2015-11-17 16:11:07

Code Review

2019-01-18 12:39:45

云計(jì)算PaaS公有云

2018-04-18 07:01:59

Docker容器虛擬機(jī)

2024-12-06 17:02:26

2020-07-02 15:32:23

Kubernetes容器架構(gòu)

2018-06-12 13:12:15

編程語言Python爬蟲

2011-04-19 13:32:01

jQueryjavascript

2024-03-01 19:53:37

PyBuilderPython開發(fā)

2010-05-26 17:35:08

配置Xcode SVN

2018-09-14 17:16:22

云計(jì)算軟件計(jì)算機(jī)網(wǎng)絡(luò)

2018-05-09 19:29:49

Python爬蟲scrapy

2024-05-15 14:29:45

2018-05-09 20:08:09

人工智能深度學(xué)習(xí)Python

2018-01-16 11:00:25

2024-05-17 17:29:00

CurdlingPython開發(fā)

2017-12-12 12:24:39

Python決策樹

2011-04-06 15:55:50

開發(fā)webOS程序webOS

2015-10-15 14:16:24

2024-04-10 07:48:41

搜索引擎場(chǎng)景

2024-11-28 10:35:47

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 91在线免费观看网站 | 国产精品一区二区三区免费观看 | 在线电影日韩 | 色婷婷综合网 | 精品国产伦一区二区三区观看方式 | 欧美一区二区在线播放 | 成人av高清 | 亚州无限乱码 | 亚洲精品视 | 欧美久久久网站 | www.亚洲视频.com| 九色视频网站 | 日韩视频1| 99精品国产一区二区青青牛奶 | 国产精品三级 | 欧美中文字幕在线观看 | 亚洲一区二区三区桃乃木香奈 | 亚洲日日夜夜 | 亚洲国产成人av好男人在线观看 | 懂色一区二区三区免费观看 | 国产精品久久久亚洲 | 久久香蕉精品视频 | 特级黄一级播放 | 免费一区二区三区在线视频 | 久久久视频在线 | 精品亚洲视频在线 | 91精品国产91久久久久青草 | 亚洲va在线va天堂va狼色在线 | 99精品国产一区二区三区 | 亚洲欧美日韩精品久久亚洲区 | 成人在线免费 | 美女黄色在线观看 | 国产精品久久性 | 精品一区在线免费观看 | 欧州一区二区三区 | 免费网站在线 | 国产日韩欧美一区二区 | 日屁网站| 精品乱码一区二区 | 精品一区二区三区入口 | 久久涩涩 |