成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

爬蟲遇到字體反爬,哭了

網絡 通信技術
在本文中主要講解了如此處理字體反爬問題,并以某某點評為例去實戰演示分析。辰哥在文中處理的數字類型,大家可以嘗試去試試中文如何解決。

[[403934]]

 大家好,我是辰哥

今天準備爬取某某點評店鋪信息時,遇到了『字體』反爬。比如這樣的:

還有這樣的:

可以看到這些字體已經被加密(反爬)

竟然遇到這種情況,那辰哥就帶大家如何去解決這類反爬(字體反爬類)

01網頁分析

在開始分析反爬之前,先簡單的介紹一下背景(爬取的網頁)

辰哥爬取的某某點評的店鋪信息。一開始查看網頁源碼是這樣的

這種什么也看不到,咱們換另一種方式:通過程序直接把整個網頁源代碼保存下來

獲取到的網頁源碼如下:

比如這里看到評論數(4位數)都有對應著一個編號(相同的數字編號相同),應該是對應著網站的字體庫。

下一步,我們需要找到這個網站的字體庫。

02獲取字體庫

這里的字體庫建議在目標網站里面去獲取,因為不同的網站的字體庫是不一樣,導致解碼還原的字體也會不一樣。

1、抓包獲取字體庫

在瀏覽器network里面可以看到一共有三種字體庫。(三種字體庫各有不同的妙用,后面會有解釋)

把字體庫鏈接復制在瀏覽器里面打開,就可以把字體庫下載到本地。

2、查看字體庫

這里使用FontCreator的工具查看字體庫。

下載地址:

  1. https://www.high-logic.com/font-editor/fontcreator/download 

這里需要注冊,郵箱驗證才能下載,不過辰哥已經下載了,可以在公眾號回復:FC,獲取安裝包。

安裝之后,把剛剛下載的字體庫在FontCreator中打開

可以看到字體的內容以及對應的編號。

比如數字7對應F399、數字8對應F572 ,咱們在原網頁和源碼對比,是否如此???

可以看到,真是一模一樣對應著解碼就可以還原字體。

3、為什么會有三個字體庫

在查看加密字體的CSS樣式時,方式有css內容是這樣的

字體庫1:d35c3812.woff 對應解碼class為 shopNum

字體庫2:084c9fff.woff 對應解碼class為 reviewTag和address

字體庫3:73f5e6f3.woff 對應解碼class為 tagName

也就是說,字體所屬的不同class標簽,對應的解密字體庫是不一樣的,辰哥這里不得不說一句:太雞賊了

咱們這里獲取的評論數,clas為shopNum,需要用到字體庫d35c3812.woff

03代碼實現解密

1、加載字體庫

既然我們已經知道了字體反爬的原理,那么我們就可以開始編程實現解密還原。

加載字體庫的Python庫包是:fontTools ,安裝命令如下:

  1. pip install fontTools 

將字體庫的內容對應關系保存為xml格式

code和name是一一對應關系

可以看到網頁源碼中的編號后四位對應著字體庫的編號。

因此我們可以建立應該字體對應集合

建立好映射關系好,到網頁源碼中去進行替換

這樣我們就成功的將字體反爬處理完畢。后面提取內容大家基本都沒問題。

2、完整代碼

輸出結果:

可以看到加密的數字全部都還原了。

04小結

辰哥在本文中主要講解了如此處理字體反爬問題,并以某某點評為例去實戰演示分析。辰哥在文中處理的數字類型,大家可以嘗試去試試中文如何解決。

本文轉載自微信公眾號「Python研究者」,可以通過以下二維碼關注。轉載本文請聯系Python研究者公眾號。

 

責任編輯:武曉燕 來源: Python研究者
相關推薦

2017-05-15 10:39:48

爬蟲應對機制

2021-10-15 11:37:44

反爬蟲破解

2017-12-14 21:45:39

2021-03-18 09:18:12

python爬蟲

2022-11-24 10:24:32

2022-09-14 23:06:45

2016-10-13 15:51:50

2021-06-28 18:57:15

CSS網頁爬蟲

2022-09-20 07:02:20

網絡爬蟲反爬蟲

2017-10-30 22:31:26

程序員

2021-06-10 18:24:59

反爬蟲驗證碼爬蟲

2016-10-14 16:35:39

2021-11-25 08:11:47

JS網站信息

2018-01-29 09:28:44

2024-06-07 08:56:43

HTTPPythonSelenium

2021-06-09 18:22:11

反爬蟲破解

2017-04-27 20:45:48

爬蟲反爬蟲

2021-01-12 11:26:44

數據安全爬蟲

2017-06-30 13:23:02

2016-12-07 11:18:58

Python爬蟲網站
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩一区二区三区视频在线观看 | 久久久综合精品 | 亚洲综合免费 | 国产精品美女久久久久久免费 | 亚洲精品观看 | 在线第一页 | 亚洲av一级毛片 | 国产成人精品免高潮在线观看 | 国产精品国产三级国产aⅴ中文 | 久久久久久免费毛片精品 | 99久久国产 | 久久亚洲一区二区 | 成人欧美日韩一区二区三区 | 伊人久久综合 | 中文字幕亚洲区 | 久久尤物免费一区二区三区 | 欧美一级小视频 | 午夜精品久久久久久久星辰影院 | 超碰精品在线观看 | 国产一级视屏 | 国产成人叼嘿视频在线观看 | 亚洲精品福利在线 | 91国在线高清视频 | 精品国产乱码久久久久久图片 | 久久视频精品 | 欧美成人在线影院 | 在线播放国产一区二区三区 | 色婷婷综合久久久久中文一区二区 | 国产无人区一区二区三区 | 99精品欧美一区二区三区 | 久99久视频| 日韩欧美在线观看 | 日韩成人在线视频 | 精品国产一区三区 | 欧美日韩精品一区二区三区蜜桃 | 天天操欧美 | 欧美一级在线观看 | 日韩一区二区三区视频在线观看 | 日韩av在线一区 | 波多野结衣精品 | 成人中文字幕av |