成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<kbd id="ovqoi"><small id="ovqoi"><blockquote id="ovqoi"></blockquote></small></kbd>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Python爬蟲入門練手案例，爬取某乎問(wèn)答數(shù)

作者：蛤鯉鹿鴨 2020-08-06 08:43:49

開(kāi)發(fā) 后端

Python是個(gè)獲取數(shù)據(jù)的小能手，所以這次希望能用它在*乎爬取一些的問(wèn)題的回答數(shù)，練練手。

前言

Python是個(gè)獲取數(shù)據(jù)的小能手，所以這次希望能用它在*乎爬取一些的問(wèn)題的回答數(shù)，練練手。

1.導(dǎo)入模塊

import re 
from bs4 import BeautifulSoup 
import requests 
import time 
import json 
import pandas as pd 
import numpy as np

2.狀態(tài)碼

r = requests.get('https://github.com/explore') 
r.status_code

3. 爬取*乎

#瀏覽器header和cookies 
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'} 
cookies = {'cookie':'_zap=3d979dbb-f25b-4014-8770-89045dec48f6; d_c0="APDvML4koQ-PTqFU56egNZNd2wd-eileT3E=|1561292196"; tst=r; _ga=GA1.2.910277933.1582789012; q_c1=9a429b07b08a4ae1afe0a99386626304|1584073146000|1561373910000; _xsrf=bf1c5edf-75bd-4512-8319-02c650b7ad2c; _gid=GA1.2.1983259099.1586575835; l_n_c=1; l_cap_id="NDIxM2M4OWY4N2YwNDRjM2E3ODAxMDdmYmY2NGFiMTQ=|1586663749|ceda775ba80ff485b63943e0baf9968684237435"; r_cap_id="OWY3OGQ1MDJhMjFjNDBiYzk0MDMxMmVlZDIwNzU0NzU=|1586663749|0948d23c731a8fa985614d3ed58edb6405303e99"; cap_id="M2I5NmJkMzRjMjc3NGZjNDhiNzBmNDMyNDQ3NDlmNmE=|1586663749|dacf440ab7ad64214a939974e539f9b86ddb9eac"; n_c=1; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1586585625,1586587735,1586667228,1586667292; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1586667292; SESSIONID=GWBltmMTwz5oFeBTjRm4Akv8pFF6p8Y6qWkgUP4tjp6; JOID=UVkSBEJI6EKgHAipMkwAEWAkvEomDbkAwmJn4mY1kHHPVGfpYMxO3voUDK88UO62JqgwW5Up4hC2kX_KGO9xoKI=; osd=UlEXAU5L4EelEAuhN0kMEmghuUYlBbwFzmFv52M5k3nKUWvqaMlL0vkcCaowU-azI6QzU5As7hO-lHrGG-d0pa4=; capsion_ticket="2|1:0|10:1586667673|14:capsion_ticket|44:YTJkYmIyN2Q4YWI4NDI0Mzk0NjQ1YmIwYmUxZGYyNzY=|b49eb8176314b73e0ade9f19dae4b463fb970c8cbd1e6a07a6a0e535c0ab8ac3"; z_c0="2|1:0|10:1586667694|4:z_c0|92:Mi4xOGc1X0dnQUFBQUFBOE84d3ZpU2hEeVlBQUFCZ0FsVk5ydTVfWHdDazlHMVM1eFU5QjlqamJxWVhvZ2xuWlhTaVJ3|bcd3601ae34951fe72fd3ffa359bcb4acd60462715edcd1e6c4e99776f9543b3"; unlock_ticket="AMCRYboJGhEmAAAAYAJVTbankl4i-Y7Pzkta0e4momKdPG3NRc6GUQ=="; KLBRSID=fb3eda1aa35a9ed9f88f346a7a3ebe83|1586667697|1586660346'} 
 
start_url = 'https://www.zhihu.com/api/v3/feed/topstory/recommend?session_token=c03069ed8f250472b687fd1ee704dd5b&desktop=true&page_number=5&limit=6&action=pull&ad_interval=-1&before_id=23'

4. beautifulsoup解析

s = requests.Session() 
start_url = 'https://www.zhihu.com/' 
html = s.get(url = start_url, headers = headers,cookies = cookies,timeout = 5) 
soup = BeautifulSoup(html.content) 
 
question = [] ## 名稱 
question_address = [] ## url 
 
temp1 = soup.find_all('div',class_='Card TopstoryItem TopstoryItem-isRecommend') 
for item in temp1: 
    temp2 = item.find_all('div',itemprop="zhihu:question") 
#     print(temp2) 
    if temp2 != []: #### 存在專欄等情況,暫時(shí)跳過(guò) 
        question_address.append(temp2[0].find('meta',itemprop='url').get('content')) 
        question.append(temp2[0].find('meta',itemprop='name').get('content'))

5. 存儲(chǔ)信息

question_focus_number = [] #關(guān)注量 
question_answer_number = [] # 回答量 
for url in question_address: 
    test = s.get(url = url,headers = headers,cookies = cookies,timeout = 5) 
    soup = BeautifulSoup(test.content) 
    info = soup.find_all('div',class_='QuestionPage')[0] 
#     print(info) 
    focus_number = info.find('meta',itemprop="answerCount").get('content') 
    answer_number = info.find('meta',itemprop="zhihu:followerCount").get('content') 
    question_focus_number.append(focus_number) 
    question_answer_number.append(answer_number)

6. 整理信息并輸出

question_info = pd.DataFrame(list(zip(question,question_focus_number,question_answer_number)),columns = ['問(wèn)題名稱','關(guān)注人數(shù)','回答人數(shù)'] 
for item in ['關(guān)注人數(shù)','回答人數(shù)']: 
    question_info[item] = np.array(question_info[item],dtype = 'int') 
question_info.sort_values(by='關(guān)注人數(shù)',ascending = False)

輸出：

Python爬蟲入門練手案例，爬取某乎問(wèn)答數(shù)（附源碼）

7. 總計(jì):

簡(jiǎn)單的爬取并不難，但涉及到賬戶密碼等，就需要注意了。爬取數(shù)據(jù)盡量不要給人家服務(wù)器造成負(fù)擔(dān)(比如：把睡眠時(shí)間加長(zhǎng));不要把爬取的數(shù)據(jù)用于商業(yè)行為;不管技術(shù)有多牛，不要輕易觸碰用戶隱私數(shù)據(jù)。合理、合法、有節(jié)制的利用爬蟲技術(shù)，要不可能給自己帶來(lái)不必要的麻煩。

責(zé)任編輯：未麗燕來(lái)源：今日頭條

Python 爬蟲數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：伊人伊成久久人综合网站 | 欧美黄色精品 | 亚洲精品久久久久久久久久久久久 | 大香在线伊779 | 国产亚洲精品久久久优势 | 二区成人 | 久久中文视频 | 91在线免费视频 | 午夜精品视频在线观看 | 欧美黄色片 | 亚洲毛片 | www.色.com| 精品久久久久一区二区国产 | 青青草av在线播放 | 久久最新 | 欧美不卡在线 | 日韩精品福利 | 日本成人久久 | 成人片网址 | 日韩国产中文字幕 | 久久五月婷 | 成人av一区 | 久久国产精品99久久久大便 | 天天综合久久 | 99精品一级欧美片免费播放 | 久久久久久亚洲精品不卡 | 成人做爰www免费看视频网站 | 99久久久无码国产精品 | 日本一二三区在线观看 | 国产影音先锋 | 精品久久久久一区二区国产 | 久久精品视频在线观看 | 日韩欧美精品在线播放 | 日本视频免费 | 亚洲综合色自拍一区 | 久久久久国产精品 | 欧美国产中文 | 日本精品久久久久 | 日韩精品在线视频免费观看 | 国产一区二区小视频 | 国产精品国产成人国产三级 |