成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

盤點一道Python網絡爬蟲中使用正則表達式匹配字符的題目

開發 前端
本文從實際工作出發,基于Python編程,針對網絡爬蟲過程中得到的字符串,使用正則表達式和字符串處理函數split(),完成了字符串的處理,滿足粉絲的要求。

大家好,我是Python進階者。

一、前言

大家好,我是Python進階者。前幾天在Python交流群里邊有個叫【Arkham】的粉絲問了一個小問題。

一開始還是覺得挺奇怪的,瞅著這個格式十分像是json格式,直接用json提取不香么,但是后來發現就是這么個格式,而且硬是要提取這個里邊的文本信息。

二、思路

一般的,針對文本提取,正則表達式是首選,十分是方便快捷。

這里給出了兩個方法,感謝【??(這是月亮的背面)】和【數據分析新手-瑜亮】兩位大佬提供的思路。

三、項目實現

這里給大家安排兩種方法,一起來看看吧!文本信息就放這里,大家回頭拿到也可以嘗試練練手。

Top2 26
Top2 "word":"經紀人不得為假唱假演奏提供條件"
Top2 "query":"經紀人不得為假唱假演奏提供條件"
Top2 "show":[]
Top2 "desc":"18日,文旅部發布關于《演出經紀人員管理辦法(征求意見稿)》公開征求意見的公告。征求意見稿指出,演出經紀人員不得為演員假唱、假演奏提供條件。"
Top2 "img":"https://fyb-1.cdn.bcebos.com/fyb-1//5b4bc1de60744e69f34225af1452a395"
Top2 "url":"https://www.baidu.com/s?wd=%E7%BB%8F%E7%BA%AA%E4%BA%BA%E4%B8%8D%E5%BE%97%E4%B8%BA%E5%81%87%E5%94%B1%E5%81%87%E6%BC%94%E5%A5%8F%E6%8F%90%E4%BE%9B%E6%9D%A1%E4%BB%B6&rsv_dl=fyb_news"
Top2 "rawUrl":"https://www.baidu.com/s?wd=%E7%BB%8F%E7%BA%AA%E4%BA%BA%E4%B8%8D%E5%BE%97%E4%B8%BA%E5%81%87%E5%94%B1%E5%81%87%E6%BC%94%E5%A5%8F%E6%8F%90%E4%BE%9B%E6%9D%A1%E4%BB%B6"
Top2 "hotScore":"2325661"
Top2 "hotChange":"same"
Top2 "hotTag":"0"
Top2 "appUrl":"https://www.baidu.com/s?wd=%E7%BB%8F%E7%BA%AA90%E4%BE%9B%E6%9D%A1%E4%BB%B6&rsv"

1、正則表達式

這個方法十分奏效,代碼如下。

# -*- coding: utf-8 -*-
import re
text = """
Top2 26
Top2 "word":"經紀人不得為假唱假演奏提供條件"
Top2 "query":"經紀人不得為假唱假演奏提供條件"
Top2 "show":[]
Top2 "desc":"18日,文旅部發布關于《演出經紀人員管理辦法(征求意見稿)》公開征求意見的公告。征求意見稿指出,演出經紀人員不得為演員假唱、假演奏提供條件。"
Top2 "img":"https://fyb-1.cdn.bcebos.com/fyb-1//5b4bc1de60744e69f34225af1452a395"
Top2 "url":"https://www.baidu.com/s?wd=%E7%BB%8F%E7%BA%AA%E4%BA%BA%E4%B8%8D%E5%BE%97%E4%B8%BA%E5%81%87%E5%94%B1%E5%81%87%E6%BC%94%E5%A5%8F%E6%8F%90%E4%BE%9B%E6%9D%A1%E4%BB%B6&rsv_dl=fyb_news"
Top2 "rawUrl":"https://www.baidu.com/s?wd=%E7%BB%8F%E7%BA%AA%E4%BA%BA%E4%B8%8D%E5%BE%97%E4%B8%BA%E5%81%87%E5%94%B1%E5%81%87%E6%BC%94%E5%A5%8F%E6%8F%90%E4%BE%9B%E6%9D%A1%E4%BB%B6"
Top2 "hotScore":"2325661"
Top2 "hotChange":"same"
Top2 "hotTag":"0"
Top2 "appUrl":"https://www.baidu.com/s?wd=%E7%BB%8F%E7%BA%AA%E4%BA%BA%E40%E4%BE%9B%E6%9D%A1%E4%BB%B6&rsv"
"""
regex = re.findall(r'":"(.*?)"', text)
for data in regex:
print(data)

運行之后,可以得到想要的結果,如下圖所示。

2、split()

這個方法是來自【??(這是月亮的背面)】大佬的思路,后來我自己寫了小代碼如下。

# -*- coding: utf-8 -*-
import re
text = """
Top2 26
Top2 "word":"經紀人不得為假唱假演奏提供條件"
Top2 "query":"經紀人不得為假唱假演奏提供條件"
Top2 "show":[]
Top2 "desc":"18日,文旅部發布關于《演出經紀人員管理辦法(征求意見稿)》公開征求意見的公告。征求意見稿指出,演出經紀人員不得為演員假唱、假演奏提供條件。"
Top2 "img":"https://fyb-1.cdn.bcebos.com/fyb-1//5b4bc1de60744e69f34225af1452a395"
Top2 "url":"https://www.baidu.com/s?wd=%E7%BB%8F%E7%BA%AA%E4%BA%BA%E4%B8%8D%E5%BE%97%E4%B8%BA%E5%81%87%E5%94%B1%E5%81%87%E6%BC%94%E5%A5%8F%E6%8F%90%E4%BE%9B%E6%9D%A1%E4%BB%B6&rsv_dl=fyb_news"
Top2 "rawUrl":"https://www.baidu.com/s?wd=%E7%BB%8F%E7%BA%AA%E4%BA%BA%E4%B8%8D%E5%BE%97%E4%B8%BA%E5%81%87%E5%94%B1%E5%81%87%E6%BC%94%E5%A5%8F%E6%8F%90%E4%BE%9B%E6%9D%A1%E4%BB%B6"
Top2 "hotScore":"2325661"
Top2 "hotChange":"same"
Top2 "hotTag":"0"
Top2 "appUrl":"https://www.baidu.com/s?wd=%E7%BB%8F%E7%BA%AA%E4%BA%BA%E40%E4%BE%9B%E6%9D%A1%E4%BB%B6&rsv"
"""
raw_text = text.strip('\n').split('Top2 ')
for text in raw_text:
print(text.split('":"')[-1].replace('"', ''))

處理起來還是相對費勁的,而且不那么智能,針對文本定制的,比較“死板”,雖然勉強可以實現,可是還是不太建議。

四、總結

本文從實際工作出發,基于Python編程,針對網絡爬蟲過程中得到的字符串,使用正則表達式和字符串處理函數split(),完成了字符串的處理,滿足粉絲的要求。

責任編輯:姜華 來源: Python爬蟲與數據挖掘
相關推薦

2023-10-07 08:25:09

Java處理工具正則表達式

2024-12-25 15:09:38

Python字符串函數

2010-07-14 09:01:18

Perl正則表達式

2012-07-27 09:56:36

Google

2024-10-09 16:35:20

Python正則表達式

2009-09-16 16:22:04

正則表達式匹配

2010-03-25 18:25:36

Python正則表達式

2009-09-16 17:02:15

正則表達式匹配字符串

2009-09-16 17:38:49

正則表達式匹配任意字符

2010-03-15 16:21:28

Python正則表達式

2009-08-14 17:44:46

C#中使用正則表達式匹

2010-03-10 18:57:53

Python正則表達式

2023-04-17 19:53:37

編程正則表達式

2009-09-16 18:08:14

正則表達式匹配單詞

2009-06-10 13:51:25

Java正則表達式匹配替換

2009-09-16 13:24:30

PHP正則表達式匹配

2018-09-27 15:25:08

正則表達式前端

2024-09-14 09:18:14

Python正則表達式

2021-01-27 11:34:19

Python正則表達式字符串

2009-08-20 13:38:58

C#正則表達式
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 97人人爱| 特级做a爰片毛片免费看108 | 久久精品国产一区二区电影 | 亚洲啪啪 | 中文天堂在线观看 | 成人欧美一区二区三区在线播放 | 久久av资源网 | 国产一在线观看 | 99re视频在线 | 国产亚洲网站 | 日本91av视频 | 久久国产精品视频 | 成人免费小视频 | 福利片在线观看 | 精品欧美一区二区在线观看欧美熟 | 国产精品毛片一区二区在线看 | 亚洲综合五月天婷婷 | 久久久久久国 | 91精品国产综合久久久久久丝袜 | 精品视频网 | 国产精品精品视频一区二区三区 | 国产欧美一区二区三区日本久久久 | 综合国产| 午夜久久久久久久久久一区二区 | 久久久国产一区二区三区 | 欧美午夜剧场 | 中国黄色毛片视频 | 久久久久久国产 | 日韩高清中文字幕 | 国产精品久久久亚洲 | 日韩国产欧美视频 | 亚洲91av | 成年人在线观看视频 | 日韩在线成人 | 全部免费毛片在线播放网站 | 七七婷婷婷婷精品国产 | 久久99深爱久久99精品 | 超碰网址 | 欧美日韩激情 | 在线黄 | 国内精品一区二区三区 |