成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一日一技:爬蟲如何解析JavaScript Object?

開發(fā) 前端
長得很像Python的字典,又很像是JSON。但是這個格式在Python里面,無論直接當字典解析,還是當JSON解析,都會報錯。

我們在開發(fā)爬蟲的過程中,經常發(fā)現有一些網站,會直接把數據放到HTML中的<script>標簽里面。這些數據長得有點像JSON,但又有差異,如下圖所示:

圖片圖片

這種格式,我們叫做JavaScript Object。長得很像Python的字典,又很像是JSON。但是這個格式在Python里面,無論直接當字典解析,還是當JSON解析,都會報錯,如下圖所示:

圖片圖片

遇到這種情況,有同學準備使用正則表達式來解析,又有同學直接放棄。

但實際上,這種數據結構,使用Yaml是可以直接解析成Python的字典。我們首先來安裝一下Yaml:

pip install pyyaml

然后直接像解析JSON一樣解析:

import yaml
data = '''
{
    name: '青南',
    salary: 999999999,
    address: '上海',
    pro: true
}
'''
info = yaml.safe_load(data)

運行效果如下圖所示,已經直接解析成了Python的字典:

圖片圖片

Yaml格式是JSON格式的超集,因此,使用pyyaml庫也能直接解析正常的JSON:

圖片圖片

甚至各種復雜的混合格式也能正常解析:

圖片圖片圖片

責任編輯:武曉燕 來源: 未聞Code
相關推薦

2021-06-08 21:36:24

PyCharm爬蟲Scrapy

2021-10-15 21:08:31

PandasExcel對象

2025-05-28 03:15:00

Scrapy數據sleep

2024-05-24 09:07:06

JSONprint字符串

2021-12-15 22:04:11

瀏覽器重復登錄

2024-10-16 21:47:15

2020-12-04 06:39:25

爬蟲網頁

2022-06-28 09:31:44

LinuxmacOS系統

2024-07-30 08:16:18

Python代碼工具

2022-03-12 20:38:14

網頁Python測試

2024-07-30 08:11:16

2022-01-26 07:35:10

爬蟲Requestsgzip

2021-09-26 05:01:55

Scrapy項目爬蟲

2024-11-11 00:38:13

Mypy靜態(tài)類型

2021-05-08 19:33:51

移除字符零寬

2021-04-27 22:15:02

Selenium瀏覽器爬蟲

2022-05-02 16:27:01

JavaScriptHTMLPython

2020-12-11 06:30:00

工具分組DataFrame

2021-04-12 21:19:01

PythonMakefile項目

2022-03-07 09:14:04

Selenium鼠標元素
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品区二区三区日本 | 伊人在线 | 久久综合香蕉 | 台湾佬久久 | 在线午夜电影 | 欧美亚洲国产一区二区三区 | 久久精品国产v日韩v亚洲 | 国产精品99久久久久久久久久久久 | 中文字幕视频在线观看免费 | 久久综合伊人一区二区三 | 一级免费毛片 | 韩日一区二区三区 | 亚洲v日韩v综合v精品v | 久久99精品久久久久婷婷 | 91久久久久 | 天天操天天干天天曰 | 国产日产精品一区二区三区四区 | 欧美一级在线观看 | 国产精品一卡 | 亚洲福利在线观看 | 99久久精品免费看国产免费软件 | av看看| 国产精品1| 精品一区二区三区免费视频 | 正在播放一区二区 | 亚洲精品粉嫩美女一区 | 亚洲一区二区久久久 | 欧美日韩国产一区二区三区不卡 | 欧美成人久久 | 欧美a区 | 91玖玖| 91在线一区 | 久久综合久久综合久久 | 亚洲成人午夜在线 | 日韩精品在线免费 | 国产精品高清一区二区三区 | 嫩草最新网址 | 国产一区亚洲 | 欧美精品乱码99久久影院 | 水蜜桃亚洲一二三四在线 | 亚洲欧美日韩精品久久亚洲区 |