成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

怎樣使用Requests模塊抓取網(wǎng)頁(yè)?

開(kāi)發(fā) 前端
爬取網(wǎng)頁(yè)其實(shí)就是通過(guò)URL獲取網(wǎng)頁(yè)信息,網(wǎng)頁(yè)信息的實(shí)質(zhì)是一段添加了JavaScript和CSS的HTML代碼。

?爬取網(wǎng)頁(yè)其實(shí)就是通過(guò)URL獲取網(wǎng)頁(yè)信息,網(wǎng)頁(yè)信息的實(shí)質(zhì)是一段添加了JavaScript和CSS的HTML代碼。Python提供了一個(gè)抓取網(wǎng)頁(yè)信息的第三方模塊requests,requests模塊自稱(chēng)“HTTP for Humans”,直譯過(guò)來(lái)的意思是專(zhuān)門(mén)為人類(lèi)而設(shè)計(jì)的HTTP模塊,該模塊支持發(fā)送請(qǐng)求,也支持獲取響應(yīng)。

1.發(fā)送請(qǐng)求

requests模塊提供了很多發(fā)送HTTP請(qǐng)求的函數(shù),常用的請(qǐng)求函數(shù)具體如表10-1所示。

表10-1 requests模塊的請(qǐng)求函數(shù)

2.獲取響應(yīng)

requests模塊提供的Response 類(lèi)對(duì)象用于動(dòng)態(tài)地響應(yīng)客戶(hù)端的請(qǐng)求,控制發(fā)送給用戶(hù)的信息,并且將動(dòng)態(tài)地生成響應(yīng),包括狀態(tài)碼、網(wǎng)頁(yè)的內(nèi)容等。接下來(lái)通過(guò)一張表來(lái)列舉Response類(lèi)可以獲取到的信息,如表10-2所示。

表10-2 Response 類(lèi)的常用屬性

接下來(lái)通過(guò)一個(gè)案例來(lái)演示如何使用requests模塊抓取百度網(wǎng)頁(yè),具體代碼如下:

# 01 requests baidu
import requests
base_url = 'http://www.baidu.com'
#發(fā)送GET請(qǐng)求
res = requests.get (base_url)
print("響應(yīng)狀態(tài)碼:{}".format(res.status_code)) #獲取響應(yīng)狀態(tài)碼
print("編碼方式:{}".format(res.encoding) #獲取響應(yīng)內(nèi)容的編碼方式
res.encoding = 'utf-8' #更新響應(yīng)內(nèi)容的編碼方式為UIE-8
print("網(wǎng)頁(yè)源代碼:\n{}".format(res.text)) #獲取響應(yīng)內(nèi)容

以上代碼中,第2行使用import導(dǎo)入了requests模塊;第3~4行代碼根據(jù)URL向服務(wù)器發(fā)送了一個(gè)GET請(qǐng)求,并使用變量res接收服務(wù)器返回的響應(yīng)內(nèi)容;第5~6行代碼打印了響應(yīng)內(nèi)容的狀態(tài)碼和編碼方式;第7行將響應(yīng)內(nèi)容的編碼方式更改為“utf-8”;第8行代碼打印了響應(yīng)內(nèi)容。運(yùn)行程序,程序的輸出結(jié)果如下:

響應(yīng)狀態(tài)碼:200
編碼方式:ISO-8859-1
網(wǎng)頁(yè)源代碼:
<!DOCTYPE html>
<!-STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;
charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=
always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.
com/r/www/cache/bdorz/baidu.min.css><title>百度一下,你就知道</title></head>
<body link=#0000cc>…省略N行…</body></html>

值得一提的是,使用requests模塊爬取網(wǎng)頁(yè)時(shí),可能會(huì)因?yàn)闆](méi)有連接網(wǎng)絡(luò)、服務(wù)器連接失敗等原因?qū)е庐a(chǎn)生各種異常,最常見(jiàn)的兩個(gè)異常是URLError和HTTPError,這些網(wǎng)絡(luò)異常可以使用 try…except 語(yǔ)句捕獲與處理。

責(zé)任編輯:華軒 來(lái)源: 今日頭條
相關(guān)推薦

2012-05-17 15:11:23

linux

2022-06-28 13:41:07

瀏覽網(wǎng)頁(yè)互聯(lián)網(wǎng)交互Python

2021-11-24 17:22:06

網(wǎng)絡(luò)抓取網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)收集

2010-03-03 15:39:50

Python抓取網(wǎng)頁(yè)內(nèi)

2009-07-31 10:34:41

ASP.NET抓取網(wǎng)頁(yè)

2009-12-02 15:50:41

PHP抓取網(wǎng)頁(yè)內(nèi)容

2025-04-03 02:35:00

GoogleGemini工具

2019-11-19 15:43:07

人工智能軟件技術(shù)

2020-10-12 08:19:43

Python爬蟲(chóng)網(wǎng)頁(yè)數(shù)據(jù)

2023-11-27 08:51:46

PythonRequests庫(kù)

2010-03-04 11:22:59

Python抓取網(wǎng)頁(yè)圖

2009-09-07 14:00:57

C#抓取網(wǎng)頁(yè)

2024-10-10 15:04:34

2010-07-16 11:16:40

Perl抓取網(wǎng)頁(yè)

2009-09-25 11:14:16

Hibernate批量

2009-12-17 15:28:32

內(nèi)核模塊編譯

2019-01-31 09:02:56

網(wǎng)頁(yè)抓取設(shè)計(jì)模式數(shù)據(jù)

2017-01-20 08:44:53

Apache Flum抓取數(shù)據(jù)

2024-04-15 13:13:04

PythonJSON

2020-11-11 10:58:59

Scrapy
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 81精品国产乱码久久久久久 | 精品99爱视频在线观看 | 国产精品一区二区在线播放 | 久久国产精品99久久久大便 | 久久精品国产亚洲一区二区 | 91 久久 | 精品欧美一区二区三区久久久 | 亚洲三级在线观看 | 黄色一级片视频 | 一道本一区二区 | 国产精品1区2区3区 一区中文字幕 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 视频一区二区三区中文字幕 | 九九热这里 | 国产一区二区视频在线观看 | 日韩av三区| 手机看黄av免费网址 | 91在线第一页| 特级丰满少妇一级aaaa爱毛片 | 特级黄一级播放 | 国产欧美精品一区二区色综合朱莉 | 亚洲成av | 亚洲精品在线视频 | 精品成人免费视频 | 精品久久久久香蕉网 | 国产在线中文字幕 | 亚洲欧美在线视频 | 欧美久久精品一级黑人c片 91免费在线视频 | 性生生活大片免费看视频 | 国产精品视频网站 | 在线观看黄免费 | 九一在线观看 | 狠狠狠色丁香婷婷综合久久五月 | 日本一卡精品视频免费 | 国产精品福利在线 | 日本视频在线 | 欧美日韩一区二区在线观看 | 精品久久久久久久久久久久久久 | 欧美日韩视频在线第一区 | 一级全黄少妇性色生活免费看 | 国产一区成人 |