成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

我們一起分享一次實用的爬蟲經驗

開發 前端
一開始我以為很簡單,我照著他給的網站,然后一頓抓包操作,到頭來竟然沒有找到響應數據,不論是在ALL還是XHR里邊都沒有找到任何符合要求的數據,真是納悶。講到這里,【杯酒】大佬一開始也放大招,嚇得我不敢說話。

[[436477]]

大家好,我是Python進階者。

前言

前幾天鉑金群有個叫【艾米】的粉絲在問了一道關于Python網絡爬蟲的問題,如下圖所示。

不得不說這個粉絲的提問很詳細,也十分的用心,給他點贊,如果大家日后提問都可以這樣的話,想必可以節約很多溝通時間成本。

其實他抓取的網站是愛企查,類似企查查那種。

一、思路

一開始我以為很簡單,我照著他給的網站,然后一頓抓包操作,到頭來竟然沒有找到響應數據,不論是在ALL還是XHR里邊都沒有找到任何符合要求的數據,真是納悶。講到這里,【杯酒】大佬一開始也放大招,嚇得我不敢說話。

其實是想復雜了,一會兒你就知道了。

懷著一顆學習的心,我看了杯酒的代碼,發現他構造的URL中有下圖這個:

然后我再去網頁中去找這個URL,可是這個URL在原網頁中根本就找不到???這就離譜了,總不能空穴來風吧,事出必有因!

二、分析

原來這里有個小技巧,有圖有真相。

之后根據抓包情況,就可以看到數據了。

在里邊可以看到數據:

這里【杯酒】大佬查詢的關鍵詞是:數據,所以得到了好幾頁數據,而我和【艾米】都是直接查的:上海手術器械廠,這個只有一頁,不太好觀察規律,所以一直卡住了。

之后將得到的代碼中的URL的關鍵詞,改為:上海手術器械廠,就可以順利的得到數據,是不是很神奇呢?

三、代碼

下面就奉上本次爬蟲的代碼,歡迎大家積極嘗試。

  1. # -*- coding: utf-8 -*- 
  2. import requests 
  3. import user_agent 
  4. from urllib import parse 
  5.  
  6.  
  7. def search(key_word): 
  8.     for page_num in range(1, 2): 
  9.         url = f'https://aiqicha.baidu.com/s/advanceFilterAjax?q={parse.quote(key_word)}&t=&p={str(page_num)}&s=10&o=0&f=%7B%7D' 
  10.         headers = { 
  11.             'User-Agent': user_agent.generate_user_agent(), 
  12.             'Referer''https://aiqicha.baidu.com/s?q=%E6%95%B0%E6%8D%AE&t=0'
  13.         } 
  14.         print(url) 
  15.         response = requests.get(url=url, headers=headers) 
  16.         print(requests) 
  17.         print(response.json()) 
  18.         # break 
  19.  
  20.  
  21. if __name__ == '__main__'
  22.     search('上海手術器械廠'

只需要將關鍵詞換成你自己想要搜索的就可以了。

下圖是運行的結果:

下圖是原網頁的截圖,可以看到數據可以對的上:

四、總結 

我是Python進階者。本文基于粉絲提問,針對一次有趣的爬蟲經歷,分享一個實用的爬蟲經驗給大家。下次再遇到類似這種首頁無法抓取的網頁,或者看不到包的網頁,不妨試試看文中的“以退為進,投機取巧”方法,說不定有妙用噢!

 

責任編輯:武曉燕 來源: Python爬蟲與數據挖掘
相關推薦

2022-10-08 00:00:05

SQL機制結構

2017-01-22 15:09:08

架構閉環演進

2023-04-26 07:30:00

promptUI非結構化

2022-03-31 18:59:43

數據庫InnoDBMySQL

2023-08-10 08:28:46

網絡編程通信

2021-08-27 07:06:09

DubboDocker技術

2021-01-12 05:08:49

DHCP協議模型

2022-10-18 07:33:57

Maven構建工具

2023-08-04 08:20:56

DockerfileDocker工具

2023-06-30 08:18:51

敏捷開發模式

2022-05-24 08:21:16

數據安全API

2023-09-10 21:42:31

2024-02-20 21:34:16

循環GolangGo

2021-07-28 07:53:20

Github ActiDotnet 應用

2022-01-17 06:59:40

Grep指令linux

2021-08-27 07:06:10

IOJava抽象

2021-12-29 08:27:05

ByteBuffer磁盤服務器

2022-03-08 17:52:58

TCP格式IP

2023-09-29 08:58:38

2023-08-14 08:38:26

反射reflect結構體
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 高清国产午夜精品久久久久久 | 久久久久中文字幕 | 久久久成人精品 | 日韩欧美国产精品 | 伊人影院99| 成人日韩| 成人小视频在线免费观看 | 国内自拍视频在线观看 | 国产精品一区二区在线 | 国产一区欧美一区 | 久久国产精品无码网站 | 91精品国产乱码久久蜜臀 | 在线成人 | 99久久精品国产一区二区三区 | 日韩欧美在线观看视频网站 | 色欧美片视频在线观看 | 国产精品视频一区二区三区, | 国产日韩精品一区二区 | 亚洲欧美一区二区三区在线 | 成人午夜看片 | 91精品一区二区三区久久久久 | 中国美女一级黄色片 | www.天堂av.com | 国产精品久久久久久久久免费桃花 | 久久久久久久久精 | 日韩免费一区二区 | 国内自拍视频在线观看 | 激情在线视频 | 中文字幕高清视频 | 亚洲免费在线 | 亚洲视频 欧美视频 | 一级免费毛片 | 欧美国产在线一区 | 一区二区不卡 | 日韩精品一区二区三区中文字幕 | 久久久久久久久综合 | 欧美精 | 在线中文字幕日韩 | 91网站在线播放 | 欧美成人hd | 天天操天天干天天透 |