成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python爬蟲音頻數(shù)據(jù)

開發(fā) 后端
本次爬取的是喜馬拉雅的熱門欄目下全部電臺的每個頻道的信息和頻道中的每個音頻數(shù)據(jù)的各種信息,然后把爬取的數(shù)據(jù)保存到mongodb以備后續(xù)使用。這次數(shù)據(jù)量在70萬左右。音頻數(shù)據(jù)包括音頻下載地址,頻道信息,簡介等等,非常多。

一:前言

本次爬取的是喜馬拉雅的熱門欄目下全部電臺的每個頻道的信息和頻道中的每個音頻數(shù)據(jù)的各種信息,然后把爬取的數(shù)據(jù)保存到mongodb以備后續(xù)使用。這次數(shù)據(jù)量在70萬左右。音頻數(shù)據(jù)包括音頻下載地址,頻道信息,簡介等等,非常多。

昨天進行了人生中***次面試,對方是一家人工智能大數(shù)據(jù)公司,我準(zhǔn)備在這大二的暑假去實習(xí),他們就要求有爬取過音頻數(shù)據(jù),所以我就來分析一下喜馬拉雅的音頻數(shù)據(jù)爬下來。目前我還在等待三面中,或者是通知最終面試消息。 (因為能得到一定肯定,不管成功與否都很開心)

二:運行環(huán)境

  • IDE:Pycharm 2017
  • Python3.6
  • pymongo 3.4.0
  • requests 2.14.2
  • lxml 3.7.2
  • BeautifulSoup 4.5.3

三:實例分析

1.首先進入這次爬取的主頁面 http://www.ximalaya.com/dq/all/ ,可以看到每頁12個頻道,每個頻道下面有很多的音頻,有的頻道中還有很多分頁。抓取計劃:循環(huán)84個頁面,對每個頁面解析后抓取每個頻道的名稱,圖片鏈接,頻道鏈接保存到mongodb。

 

熱門頻道

2.打開開發(fā)者模式,分析頁面,很快就可以得到想要的數(shù)據(jù)的位置。下面的代碼就實現(xiàn)了抓取全部熱門頻道的信息,就可以保存到mongodb中。 

   

 

分析頻道

3.下面就是開始獲取每個頻道中的全部音頻數(shù)據(jù)了,前面通過解析頁面獲取到了美國頻道的鏈接。

比如我們進入 http://www.ximalaya.com/6565682/album/237771 這個鏈接后分析頁面結(jié)構(gòu)。可以看出每個音頻都有特定的ID,這個ID可以在一個div中的屬性中獲取。使用split()和int()來轉(zhuǎn)換為單獨的ID。

 

頻道頁面分析

4.接著點擊一個音頻鏈接,進入開發(fā)者模式后刷新頁面然后點擊XHR,再點擊一個json鏈接可以看到這個就包括這個音頻的全部詳細(xì)信息。

 

音頻頁面分析

5.上面只是對一個頻道的主頁面解析全部音頻信息,但是實際上頻道的音頻鏈接是有很多分頁的。 

 

 

  

 

 

 

分頁

6.全部代碼

完整代碼地址 github.com/rieuse/learnPython 

 

 

7.如果改成異步的形式可以快一點,只需要修改成下面這樣就行了。我試了每分鐘要比普通的多獲取近100條數(shù)據(jù)。這個源代碼也在github中。 

 

 

 

異步

五:總結(jié)

這次抓取的數(shù)據(jù)量在70萬左右,這些數(shù)據(jù)后續(xù)可以進行很多研究,比如播放量排行榜、時間區(qū)段排行、頻道音頻數(shù)量等等。后續(xù)我將繼續(xù)學(xué)習(xí)使用科學(xué)計算和繪圖工具來進行數(shù)據(jù)分析,清洗的工作。 

責(zé)任編輯:龐桂玉 來源: 馬哥Linux運維
相關(guān)推薦

2022-10-25 08:00:00

Huggingfac開源庫數(shù)據(jù)倉庫

2021-02-22 11:05:04

Clubhouse音頻數(shù)據(jù)安全

2017-08-22 17:30:14

Python爬蟲

2019-05-15 15:57:15

Python數(shù)據(jù)分析爬蟲

2024-07-02 11:32:38

2019-11-20 12:03:42

Python數(shù)據(jù)爬蟲

2024-04-30 09:33:00

JavaScriptPythonexecjs

2017-08-09 15:27:33

python爬蟲開發(fā)工具

2017-06-14 15:20:43

Python爬蟲BeautifulSo

2020-04-27 09:25:16

Python爬蟲庫數(shù)據(jù)科學(xué)

2024-11-27 06:31:02

2024-09-26 15:30:00

語音模型

2022-04-20 08:00:00

深度學(xué)習(xí)數(shù)據(jù)集Hub

2024-05-31 12:31:54

C#爬蟲Python

2020-10-19 19:25:32

Python爬蟲代碼

2018-12-05 13:59:45

電影分析爬蟲

2023-11-27 08:51:46

PythonRequests庫

2023-11-29 10:16:24

ScrapyPython

2023-11-28 08:34:39

Python工具
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成人欧美一区二区三区1314 | 免费中文字幕日韩欧美 | 欧美xxxx性 | 欧美精品一级 | 国产综合精品 | 九九九视频在线观看 | 欧美视频1区 | 欧美亚洲国语精品一区二区 | 免费精品视频 | 黄片毛片免费看 | 午夜精品一区二区三区在线视频 | 羞羞的视频在线观看 | 久久久久久精 | 欧美三区在线观看 | 久久精品高清视频 | 日本精品久久久久久久 | 久久伊人一区二区 | 日韩另类视频 | 亚洲成网站 | 视频三区 | 97人人超碰 | 欧美性生活一区二区三区 | 精品二区| 国产一区二区三区四区三区四 | 精国产品一区二区三区四季综 | 亚洲综合色站 | 国产精品美女在线观看 | 在线欧美 | 最新国产精品视频 | 一区二区亚洲 | 国产免费xxx | 久久不卡区 | 欧美精品在线一区 | 国产精品视频一区二区三区不卡 | 在线久草 | 欧美999| 中文字幕一区二区三区在线观看 | 成人不卡 | 先锋av资源网 | 超碰在线人人干 | 黄色片在线看 |