成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

手把手教你使用Curl2py自動構造爬蟲代碼并進行網絡爬蟲

開發 前端
這篇文章主要給大家介紹了curl2py工具及其用法。curl2py工具的確是一個神器,功能強大,而且十分方便,有了它,基本上網頁請求數據的復制、粘貼等傳統方式都通通幫你搞定了,而且省事省心省力,還不用擔心翻車。

[[420956]]

大家好,我是Python進階者。

前言

前幾天給大家分享了小小明大佬的兩篇文章,分別是盤點一個小小明大佬開發的Python庫,4個超贊功能和手把手教你用Python網絡爬蟲獲取B站UP主10萬條數據并用Pandas庫進行趣味數據分析,這兩篇文章里邊都有說到curl2py命令,這個命令十分的神奇,通過curl2py命令將網頁請求參數直接轉換為python代碼。

curl2py命令是小小明大佬開發的filestools庫下四大神器之一,filestools目前包含四個工具包,分別是樹形目錄顯示、文件差異比較、圖片加水印和curl請求轉python代碼。關于其他三個神器的介紹,在上面那個超鏈接里邊也有,這里給出源地址出處,直擊小小明大佬開發的庫。

https://pypi.org/project/filestools/

前幾天有粉絲在問這個curl2py命令不知道怎么使用,今天這篇文章就是一個手把手教程,希望大家后面都可以用上,下面一起來看看吧!

一、安裝

你可以選擇在命令提示符使用pip安裝filestools庫,安裝命令:

  1. pip install filestools 
  2. 或者 
  3. pip install filestools -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com 

二、傳統方法

1、目標網站

安裝之后,我們就可以進行使用了。這里我們以小小明大佬之前介紹過的這個網站為例,進行說明。

小小數據網站:https://xxkol.cn/kol

【注意】:如果是初次登錄這個網站,需要進行微信掃碼登錄,才能有瀏覽權限噢!

2、網頁請求

那么現在我們需要獲取這個網站的數據,就需要對改網站進行請求。老規矩,右鍵選擇“檢查”(如下圖所示)或者直接按下鼠標快捷鍵F12,可以進入開發者模式。

進入到開發者模式,如下圖所示。依次選擇網絡-->Fetch/XHR。

我們嘗試進行翻頁查看數據的話,發現這個網站其實是JS加載的,那么就需要構造請求頭,如下圖所示。

按照以往的做法,我們肯定是需要手動的去把這些cookies、headers和params參數挨個的去復制粘貼到我們的代碼文件里邊。這么做肯定是可以的,但是容易出現出錯或者漏了某一個參數,而且費時費力,萬一出錯了,你還得挨個從頭到尾去檢查,十分的頭大。

那現在小小明大佬給我們開發的這個curl2py工具呢,就直接解放了我們的雙手,我直呼小小明yyds!下面一起來看看如何使用吧。

三、curl2py工具

1、復制為cURL(bash)

繼續沿用上一步的網站和分析情況,我們只需要在JS網址上進行右鍵,然后依次選擇復制-->復制為cURL(bash),如下圖所示。

2、使用curl2py工具轉換代碼

復制好之后,我們只需要在Pycharm中運行以下代碼,其中代碼中的xxx,就是上面復制到的curl命令,直接粘貼替換下面的xxx即可。

  1. from curl2py.curlParseTool import curlCmdGenPyScript 
  2.  
  3. curl_cmd = """xxx""" 
  4. output = curlCmdGenPyScript(curl_cmd) 
  5. print(output

3、實例

下面來看實際操作,以剛剛這個網站為例,小編剛剛已經復制了,然后替換粘貼代碼,代碼如下所示。

  1. from curl2py.curlParseTool import curlCmdGenPyScript 
  2.  
  3. curl_cmd = ''
  4. curl 'https://xxkol.cn/api/klist?pagesize=20&page=2&name=&follower_start=&follower_end=&inter_start=&inter_end=&xxpoint_start=&xxpoint_end=&platform=&sex=&attribute=&category=&sort_type=' \ 
  5.   -H 'authority: xxkol.cn' \ 
  6.   -H 'sec-ch-ua: "Chromium";v="92", " Not A;Brand";v="99", "Microsoft Edge";v="92"' \ 
  7.   -H 'accept: application/json, text/plain, */*' \ 
  8.   -H 'authorization: eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA' \ 
  9.   -H 'sec-ch-ua-mobile: ?0' \ 
  10.   -H 'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73' \ 
  11.   -H 'sec-fetch-site: same-origin' \ 
  12.   -H 'sec-fetch-mode: cors' \ 
  13.   -H 'sec-fetch-dest: empty' \ 
  14.   -H 'referer: https://xxkol.cn/kol' \ 
  15.   -H 'accept-language: zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6' \ 
  16.   -H 'cookie: Hm_lvt_d4217dc2524e360ff487588dd84ad4ab=; xxtoken=eyJ0eXGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA; Hm_lpvt_d4217dc2524e360ff487588dd84ad4ab=1629212' \ 
  17.   --compressed 
  18. ''
  19. output = curlCmdGenPyScript(curl_cmd) 
  20. print(output

運行代碼之后,我們在控制臺會得到具體的爬蟲代碼,如下圖所示。

也就是說,都不需要你動手,小小明大佬直接給你把代碼都構造出來了,是不是個狠人?

這里我把控制臺輸出的代碼直接拷貝出來,粘貼到這里,這樣大家看得可能會更直觀一些。

  1. ####################################### 
  2. #      The generated by curl2py.       
  3. #      author:小小明                   
  4. ####################################### 
  5.  
  6. import requests 
  7. import json 
  8.  
  9. headers = { 
  10.     "authority""xxkol.cn"
  11.     "sec-ch-ua""\"Chromium\";v=\"92\", \" Not A;Brand\";v=\"99\", \"Microsoft Edge\";v=\"92\""
  12.     "accept""application/json, text/plain, */*"
  13.     "authorization""eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA"
  14.     "sec-ch-ua-mobile""?0"
  15.     "user-agent""Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73"
  16.     "sec-fetch-site""same-origin"
  17.     "sec-fetch-mode""cors"
  18.     "sec-fetch-dest""empty"
  19.     "referer""https://xxkol.cn/kol"
  20.     "accept-language""zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6" 
  21. cookies = { 
  22.     "Hm_lvt_d4217dc2524e36588dd84ad4ab""1629232919"
  23.     "xxtoken""eyJ0eXAiOiJKVhbGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA"
  24.     "Hm_lpvt_d4217dc2524e360ff488dd84ad4ab""16292212" 
  25. params = { 
  26.     "pagesize""20"
  27.     "page""2"
  28.     "name"""
  29.     "follower_start"""
  30.     "follower_end"""
  31.     "inter_start"""
  32.     "inter_end"""
  33.     "xxpoint_start"""
  34.     "xxpoint_end"""
  35.     "platform"""
  36.     "sex"""
  37.     "attribute"""
  38.     "category"""
  39.     "sort_type""" 
  40.  
  41. res = requests.get( 
  42.     "https://xxkol.cn/api/klist"
  43.     params=params, 
  44.     headers=headers, 
  45.     cookies=cookies 
  46. print(res.text) 

喲嚯,這代碼,直接給你呈現出來了,講真,這代碼比我們自己寫出來的還要好呢,真是tql!

有的吃瓜群眾可能就要問了,小編啊,這個代碼能跑嘛?當然可以了!下面一起來運行下吧!直接在Pycharm里邊復制控制臺的代碼,將首尾兩行Pycharm自帶的提示去除,就可以跑了,右鍵運行,得到下圖的結果。

可以看到返回code 0,說明程序運行成功,而且可以看到滾動條那么小,可以想象數據量還是蠻大的,這個數據一看就是json格式的,直接將結果放到在線json網站中去看看。

json在線解析網址:https://www.sojson.com/

然后點擊紅色框框中的校驗/格式化,可以看到json格式的數據,如下圖所示。

這下看上去是不是清爽很多了呢?

四、總結

我是Python進階者,這篇文章主要給大家介紹了curl2py工具及其用法。curl2py工具的確是一個神器,功能強大,而且十分方便,有了它,基本上網頁請求數據的復制、粘貼等傳統方式都通通幫你搞定了,而且省事省心省力,還不用擔心翻車。小伙伴們,你學會了嘛?快快用起來吧!

 

責任編輯:姜華 來源: Python爬蟲與數據挖掘
相關推薦

2018-05-14 15:27:06

Python網絡爬蟲爬蟲架構

2018-05-22 15:30:30

Python網絡爬蟲分布式爬蟲

2018-05-14 16:34:08

Python網絡爬蟲Scrapy

2020-07-10 08:24:18

Python開發工具

2018-05-16 15:46:06

Python網絡爬蟲PhantomJS

2018-05-16 13:50:30

Python網絡爬蟲Scrapy

2018-05-22 16:28:46

Python網絡爬蟲URL去重

2021-01-30 10:37:18

ScrapyGerapy網絡爬蟲

2022-03-30 09:11:00

Python網絡爬蟲

2021-11-09 09:01:36

Python網絡爬蟲Python基礎

2018-05-14 14:02:41

Python爬蟲網易云音樂

2025-05-07 00:31:30

2021-04-01 09:02:38

Python小說下載網絡爬蟲

2021-07-14 09:00:00

JavaFX開發應用

2021-07-01 09:31:50

MySQL SQL 語句數據庫

2022-04-12 08:46:12

i2c-tools開源工具

2022-12-07 08:42:35

2020-08-12 09:07:53

Python開發爬蟲

2021-09-26 16:08:23

CC++clang_forma

2020-11-10 09:11:02

采集數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久久 | 国产午夜精品一区二区三区四区 | 午夜色播 | 亚洲网站在线 | 天堂一区在线观看 | 国产精品永久免费观看 | h视频在线免费观看 | 国产精品国产三级国产aⅴ中文 | a黄视频 | 日韩在线中文 | 欧美午夜一区 | 日韩不卡在线观看 | 国产真实乱全部视频 | 91亚洲精品国偷拍自产在线观看 | 国产精品欧美一区二区三区 | 国产一区二区免费 | 欧美一区二 | 国产精品久久久久一区二区三区 | 视频第一区| 第一福利社区1024 | 男女激情网站免费 | 欧美激情a∨在线视频播放 成人免费共享视频 | 久久久久久久国产 | 午夜网址 | 久久天堂 | 欧美精品综合在线 | 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 午夜精品一区二区三区在线播放 | 龙珠z在线观看 | 黄色一级在线播放 | 国产精品欧美一区二区 | 色视频网站 | 国产成人福利视频 | 亚洲乱码一区二区 | 成人性视频免费网站 | 国产色在线 | 亚洲一二三在线观看 | 91精品久久久久久久久中文字幕 | 国产精品国产成人国产三级 | 久久高清 | 国产情侣久久 |