成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

利用Python尋找命中注定的另一半, 大家都覺得不可信

開發(fā) 后端
既然是Python程序員找美女,就要用python程序員的方法。今天我們的目標是,爬社區(qū)的美女~而且,我們又要用到新的姿勢(霧)了~scrapy爬蟲框架~

既然是Python程序員找美女,就要用python程序員的方法。

今天我們的目標是,爬社區(qū)的美女~而且,我們又要用到新的姿勢(霧)了~scrapy爬蟲框架~

[[231563]]

1scrapy原理

在寫過幾個爬蟲程序之后,我們就知道,利用爬蟲獲取數據大概的步驟:請求網頁,獲取網頁,匹配信息,下載數據,數據清洗,存入數據庫。

scrapy是一個很有名的爬蟲框架,可以很方便的進行網頁信息爬取。那么scrapy到底是如何工作的呢?之前在網上看了不少scrapy入門的教程,大多數入門教程都配有這張圖。

利用Python尋找命中注定的另一半, 大家都覺得不可信

_(:зゝ∠)_也不知道是這張圖實在太經典了,還是程序員們都懶得畫圖,第一次看到這個圖的時候,米醬的心情是這樣的

請輸入描述

GIF

經過了一番深入的理解,大概知道這幅圖的意思,讓我來舉個栗子(是的,我又要舉奇怪的栗子了):

利用Python尋找命中注定的另一半, 大家都覺得不可信

當我們想吃東西的時候,我們會出門,走到街上,尋找一家想吃的點,然后點餐,服務員再通知廚房去做,最后菜到餐桌上,或者被打包帶走。這就是爬蟲程序在做的事,它要將所有獲取數據需要進行的操作,都寫好。

而scrapy就像一個點餐app一般的存在,在訂餐列表(spiders)選取自己目標餐廳里想吃的菜(items),在收貨(pipeline)處寫上自己的收貨地址(存儲方式),點餐系統(tǒng)(scrapy engine)會根據訂餐情況要求商鋪(Internet)的廚房(download)將菜做好,由于會產生多個外賣取貨訂單(request),系統(tǒng)會根據派單(schedule)分配外賣小哥從廚房取貨(request)和送貨(response)。說著說著我都餓了。。。。

什么意思呢?在使用scrapy時,我們只需要設置spiders(想要爬取的內容),pipeline(數據的清洗,數據的存儲方式),還有一個middlewares,是各功能間對接時的一些設置,就可以不用操心其他的過程,一切交給scrapy模塊來完成。

2創(chuàng)建scrapy工程

安裝scrapy之后,創(chuàng)建一個新項目

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

我用的是pycharm編譯器,在spiders文件下創(chuàng)建zhihuxjj.py

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

在zhihuxjj.py這個文件中,我們要編寫我們的爬取規(guī)則。

[[231565]]

3爬取規(guī)則制定(spider)

創(chuàng)建好了項目,讓我們來看一下我們要吃的店和菜…哦不,要爬的網站和數據。

我選用了知乎作為爬取平臺,知乎是沒有用戶從1到n的序列id的,每個人可以設置自己的個人主頁id,且為唯一。所以采選了選取一枚種子用戶,爬取他的關注者,也可以關注者和粉絲一起爬,考慮到粉絲中有些三無用戶,我僅選擇了爬取關注者列表,再通過關注者主頁爬取關注者的關注者,如此遞歸。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

對于程序的設計,是這樣的。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

start url是scrapy中的一個標志性的值,它用于設置爬蟲程序的開始,也就是從哪里開始爬,按照設定,從種子用戶個人主頁開始爬便是正義,但是考慮到個人主頁的鏈接會進行重復使用,所以在這里我將起始url設成了知乎主頁。

之后就是種子用戶的個人主頁,知乎粉絲多的大V很多,但是關注多的人就比較難發(fā)現了,這里我選擇了知乎的黃繼新,聯合創(chuàng)始人,想必關注了不少優(yōu)質用戶(≖‿≖)。

分析一下個人主頁可知,個人主頁由'https://www.zhihu.com/people/' + 用戶id 組成,我們要獲取的信息是用callback回調函數(敲黑板!!劃重點!!)的方式設計,這里一共設計了兩個回調函數:用戶的關注列表和關注者的個人信息。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

使用chrome瀏覽器查看上圖的頁面可知獲取關注列表的url,以及關注者的用戶id。

將鼠標放在用戶名上。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

可以獲得個人用戶信息的url。分析url可知:

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

so,我們在上一節(jié)中創(chuàng)建的zhihuxjj.py文件中寫入以下代碼。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

這里需要劃重點的是yield的用法,以及item['name'],將爬取結果賦值給item,就是告訴系統(tǒng),這是我們要選的菜…啊呸…要爬的目標數據。

4設置其他信息

在items.py文件中,按照spider中設置的目標數據item,添加對應的代碼。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

在pipeline.py中添加存入數據庫的代碼(數據庫咋用上一篇文章寫了哦~)。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

因為使用了pipeline.py,所以我們還需要再setting.py文件中,將ITEM_PIPELINE注釋解除,這里起到連接兩個文件的作用。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

到這里,基本就都設置好了,程序基本上就可以跑了。不過因為scrapy是遵循robots.txt法則的,所以讓我們來觀察一下知乎的法則https://www.zhihu.com/robots.txt

emmmmmmm,看完法則了嗎,很好,然后我們在setting.py中,將ROBOTSTXT_OBEY 改成 False。(逃

 

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

好像…還忘了點什么,對了,忘記設置headers了。通用的設置headers的方法同樣是在setting.py文件中,將DEFAULTREQUESTHEADERS的代碼注釋狀態(tài)取消,并設置模擬瀏覽器頭。知乎是要模擬登錄的,如果使用游客方式登錄,就需要添加authorization,至于這個authorization是如何獲取的,我,就,不,告,訴,你(逃

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

為了減少服務器壓力&防止被封,解除DOWNLOADDELAY注釋狀態(tài),這是設置下載延遲,將下載延遲設為3(robots法則里要求是10,但10實在太慢了_(:зゝ∠)知乎的程序員小哥哥看不見這句話看不見這句話…

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

寫到這里你會發(fā)現,很多我們需要進行的操作,scrapy都已經寫好了,只需要將注釋去掉,再稍作修改,就可以實現功能了。scrapy框架還有很多功能,可以閱讀官方文檔了解。

[[231568]]

5運行scrapy文件

寫好scrapy程序后,我們可以在終端輸入

運行文件。

但也可以在文件夾中添加main.py,并添加以下代碼。

利用Python尋找命中注定的另一半, 大家都覺得不可信

然后直接用pycharm運行main.py文件即可,然后我們就可以愉快的爬知乎用戶啦~(小姐姐我來啦~

6查找美女

關于怎么快速學python,可以加下小編的python學習群:611+530+101,不管你是小白還是大牛,小編我都歡迎,不定期分享干貨

每天晚上20:00都會開直播給大家分享python學習知識和路線方法,群里會不定期更新最新的教程和學習方法,大家都是學習python的,或是轉行,或是大學生,還有工作中想提升自己能力的,如果你是正在學習python的小伙伴可以加入學習。最后祝所有程序員都能夠走上人生巔峰,讓代碼將夢想照進現實

經過了X天的運行,_(:зゝ∠)_爬到了7w條用戶數據,爬取深度5。(這爬取速度讓我覺得有必要上分布式爬蟲了…這個改天再嘮)

有了數據我們就可以選擇,同城市的用戶進行研究了……

先國際慣例的分析一下數據。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

在7w用戶中,明顯男性超過了半數,標明自己是女性的用戶只占了30%左右,還有一部分沒有注明性別,優(yōu)質的小姐姐還是稀缺資源呀~

再來看看小姐姐們都在哪個城市。(從7w用戶中篩選出性別女且地址信息不為空的用戶)

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

看來小姐姐們還是集中在北上廣深杭的,所以想發(fā)現優(yōu)質小姐姐的男孩紙們還是要向一線看齊啊,當然也不排除在二三線的小姐姐們沒有標記處自己的地理位置。

emmmmm……這次的分析,就到此為止,你們可以去撩小姐姐們了。(逃

7研究小姐姐

意不意外?開不開心?這里還有一章。正所謂,授之以魚,不如授之以漁;撒了心靈雞湯,還得加一只心靈雞腿;找到了小姐姐,我們還要了解小姐姐…………

讓我再舉個栗子~來研究一個小姐姐。(知乎名:動次,已獲取小姐姐授權作為示例。)

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

讓我們來爬一下她的動態(tài),chrome右鍵檢查翻network這些套路我就不說了,直接將研究目標。

贊同的答案和文章(了解小姐姐的興趣點)發(fā)布的答案和文章(了解小姐姐的世界觀、人生觀、價值觀)關注的問題和收藏夾(了解小姐姐需求)提出的問題(了解小姐姐的疑惑)

代碼也不貼了,會放在gayhub的,來看一下輸出。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

因為你乎風格,所以對停用詞進行了一些加工,添加了“如何”“看待”“體驗”等詞語,得到了小姐姐回答問題的詞頻。小姐姐的回答里出現了喜歡、朋友、爺爺等詞語。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

還有!!在關注、贊同和輸出中,都有的詞(ω)。(是不是可以靠美味捕獲小姐姐呢……

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

再來一張劉看山背景的,答題詞云。

利用Python尋找命中注定的另一半, 大家都覺得不可信

請輸入描述

責任編輯:未麗燕 來源: 簡書
相關推薦

2014-03-06 23:52:58

女產品經理IT小木

2014-12-05 10:10:44

DockerRocketCoreOS

2013-02-25 11:27:23

交互設計師設計

2021-04-30 13:56:15

美國軍方互聯網網絡安全

2025-01-22 13:00:00

2015-07-27 10:24:01

蘋果中國

2013-02-25 10:11:35

4GLTE商用網絡

2020-12-04 10:11:26

Unsafejava并發(fā)包

2009-11-06 10:48:14

函數式編程Scala

2013-11-27 15:48:56

移動中間件廠商

2018-06-03 08:49:21

2023-07-19 12:11:19

數據中心

2013-04-23 10:00:45

創(chuàng)業(yè)創(chuàng)始人

2017-02-27 16:54:20

HTTPS網絡流量互聯網

2017-02-24 13:53:38

HTTPS流量互聯網

2021-12-09 08:54:20

數組數字排序

2014-08-07 09:39:49

游戲

2016-12-16 13:07:30

云存儲運營混合云

2024-04-15 03:00:00

python代碼開發(fā)

2020-08-26 06:04:25

信息泄露密鑰加密信息安全
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜视频在线 | 午夜精品久久久久久 | 亚洲免费毛片 | 国内精品久久精品 | 精品国产乱码久久久久久88av | 日韩一区二区三区在线 | 国外成人在线视频网站 | 亚洲精选一区 | 欧美午夜精品理论片a级按摩 | 国产精品99久久久久久动医院 | 亚洲欧美综合网 | 国产欧美一区二区三区久久人妖 | 久草新在线 | 日韩精品a在线观看图片 | www.激情.com| 国色天香综合网 | 欧美黄色片 | 美女一区二区在线观看 | 一区二区在线不卡 | 国产精品视频在线观看 | 亚洲毛片一区二区 | 日韩中文字幕第一页 | 成人精品福利 | 美女久久| 日本不卡一区二区三区 | 欧美二区在线 | 成人一级视频在线观看 | 亚洲www啪成人一区二区麻豆 | 国产免费又黄又爽又刺激蜜月al | 日韩欧美在线视频 | 欧美日一区| 亚洲黄色成人网 | av在线一区二区三区 | 国产欧美一区二区三区在线看 | 欧美欧美欧美 | 亚洲精品1区 | 国产视频一区二区 | 久久久久久天堂 | 日韩在线h| www.欧美| 男人天堂av网站 |