成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

利用Python爬蟲爬取網站音樂遇到的坑

開發 后端
下面,我以爬取某易云音樂為例,介紹一下我時如何學習python爬蟲的。

 前言

最近我想在網站上下載幾首音樂放到我的u盤里聽,但是上網上一找,各大音樂網站下載歌曲(尤其是好聽的歌曲)都需要vip。

[[388310]]

對于像我這樣的窮人來說,肯定是不會花幾十塊錢去下載幾首音樂啦,而且作為程序員,充錢去下載音樂那也是不可能的,于是我花了一天時間,上網找了各種資料來學習一下怎樣才能不花錢白嫖到網站上的音樂。

當然,方法還是有很多種的,最后我還是選擇了一種最簡單,最方便的一種方法: python爬蟲。下面,我就跟大家分享一下我在用python爬蟲時遇到的坑。

下面,我以爬取某易云音樂為例,介紹一下我時如何學習python爬蟲的:

思路:

  •  音樂從哪里來?---網站的服務器里
  •  怎么從網址里得到音樂?---向網站發起網絡請求
  •  刪選音樂文件
  •  下載音樂文件

具體實現

1.引入發送網絡請求的第三方庫

  1. import requests # 發送網絡請求的第三方庫 

安裝方法

  1. pip install requests 

2.引入數據解析第三方庫 

  1. from lxml import etree # 數據解析第三方庫 

安裝方法 

  1. pip install lxml 

3.某易云音樂網站列表url為'https://music.163.com/#/discover/toplist?id=3778678' 

  1. url = 'https://music.163.com/#/discover/toplist?id=3778678' 

4.發送請求獲取頁面數據 

  1. response = requests.get(urlurl=url) # 請求頁面數據 

5.解析數據 

  1. html=etree.HTML(response.text) # 解析頁面數據 

6.獲取所有歌曲標簽集合( a標簽 ) 

  1. id_list = html.xpath('//a[contains(@href,"song?")]')  # 所有歌曲id集合 

7.下載歌曲 

  1. base_url = 'http://music.163.com/song/media/outer/url?id=' # 下載音樂網址前綴  
  2. # 下載音樂url = 網址前綴 + 音樂id  
  3. for data in id_list:  
  4.     href = data.xpath('./@href')[0]  
  5.     music_id = href.split('=')[1] # 音樂id  
  6.     music_url = base_url + music_id # 下載音樂url  
  7.     music_name = data.xpath('./text()')[0] # 下載音樂名稱  
  8.     music = requests.get(url = music_url 
  9.     # 將下載的音樂以文件形式保存下來  
  10.     with open('./music/%s.mp3' % music_name, 'wb') as file:  
  11.          file.write(music.content)  
  12.          print('<%s>下載成功' % music_name) 

遇到的坑

以上的方法我是從一個視頻里學到的,那個視頻是半年前出的,可能當時這種方法還好使,但是今天我在用這種方法下載音樂文件的時候突然就報錯了。

首先,編輯器報錯找不到 music_name 和 music_id ,我仔細一看,獲取的id_list集合里(也就是標簽集合里)的id根本不是id,是代碼,估計在這里音樂網站也做了相應的反扒機制。

其次,我自己在網站里找到了一首音樂獲取了它的id并把id賦值給music_id,結果當用外鏈下載音樂時報錯460,顯示網絡擁擠,估計下載音樂的網址也不好使了。 

  1. base_url = 'http://music.163.com/song/media/outer/url?id='  
  2. music_id = '1804320463.mp3'  
  3. music_url = base_url + music_id  
  4. music = requests.get(url=music_url 
  5. print(music.text) 

{"msg":"網絡太擁擠,請稍候再試!","code":-460,"message":"網絡太擁擠,請稍候再試!"}

最后,我打印出music_url,點擊進去,還是可以聽歌和下載的,不知道這是為什么了 

  1. base_url = 'http://music.163.com/song/media/outer/url?id='  
  2. music_id = '1804320463.mp3'  
  3. music_url = base_url + music_id  
  4. music = requests.get(url=music_url 
  5. print(music_url) 

music.163.com/song/media/…

總結

現在的網站技術更新太快,很多網站都有了高級反爬機制,畢竟嘛,有些東西還是不能隨隨便便就給你的,我寫這篇文章主要是跟大家分享一下我學習python爬蟲時的一些經驗,同時,我也想請教各位大神,像遇到了我這種問題了,我應該怎么辦才能將這個網站的音樂文件爬到我的本地電腦里,還請各大神指點一二。 

 

責任編輯:龐桂玉 來源: 馬哥Linux運維
相關推薦

2016-12-07 11:18:58

Python爬蟲網站

2021-01-24 16:40:00

Python爬取網站編程語言

2016-12-08 16:47:06

2017-12-14 21:45:39

2017-05-24 15:07:19

Python爬蟲爬取

2021-06-06 19:53:05

爬蟲處理字體反爬

2016-11-07 15:23:37

Python

2017-09-19 15:17:09

PythonBeautifulso爬取網站

2018-01-11 10:20:04

Python爬蟲豆瓣音樂

2014-03-11 11:21:23

2020-08-06 08:43:49

Python爬蟲數據

2021-06-02 22:18:11

Python關鍵詞微博

2021-06-28 18:57:15

CSS網頁爬蟲

2018-03-22 11:38:18

2018-06-25 15:15:11

編程語言Python爬蟲

2021-04-16 08:02:05

Python下載音樂Python基礎

2021-09-03 09:26:15

Python爬蟲百度百科

2017-11-20 09:46:08

python爬蟲Scrapy

2018-11-05 20:00:00

正則表達式爬蟲Python

2020-10-26 15:09:35

Python爬蟲網頁數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 97精品一区二区 | 亚洲色图婷婷 | 欧美1区2区 | 看羞羞视频免费 | av性色| 久久99精品久久久97夜夜嗨 | 亚洲视频中文字幕 | 九九在线视频 | 欧美网址在线观看 | 国产精品成人一区二区三区 | 黄色大片免费播放 | 亚洲成人福利在线观看 | 欧美一级黄色片免费观看 | 99re视频| 91在线色视频 | 亚洲欧美综合精品久久成人 | 一区二区三区四区在线播放 | 国产免费拔擦拔擦8x高清 | 97精品超碰一区二区三区 | www.久久| 国外成人免费视频 | 婷婷丁香在线视频 | 久色视频在线观看 | 国产精品福利在线 | 国产成在线观看免费视频 | 亚洲男女激情 | 情侣酒店偷拍一区二区在线播放 | 国产综合视频 | 91视频进入| 超碰在线人 | 精品av | 性色网站 | 国产91视频播放 | 国产精品日韩高清伦字幕搜索 | 久久精品超碰 | 久久综合成人精品亚洲另类欧美 | 午夜av免费 | 日本中文在线 | 精品福利在线视频 | 亚洲视频一区二区三区 | 久草免费在线视频 |