利用Python爬蟲爬取網站音樂遇到的坑

作者：佚名 2021-03-18 09:18:12

開發后端

下面，我以爬取某易云音樂為例，介紹一下我時如何學習python爬蟲的。

前言

最近我想在網站上下載幾首音樂放到我的u盤里聽，但是上網上一找，各大音樂網站下載歌曲（尤其是好聽的歌曲）都需要vip。

[[388310]]

對于像我這樣的窮人來說，肯定是不會花幾十塊錢去下載幾首音樂啦，而且作為程序員，充錢去下載音樂那也是不可能的，于是我花了一天時間，上網找了各種資料來學習一下怎樣才能不花錢白嫖到網站上的音樂。

當然，方法還是有很多種的，最后我還是選擇了一種最簡單，最方便的一種方法： python爬蟲。下面，我就跟大家分享一下我在用python爬蟲時遇到的坑。

下面，我以爬取某易云音樂為例，介紹一下我時如何學習python爬蟲的：

思路:

音樂從哪里來？---網站的服務器里
怎么從網址里得到音樂？---向網站發起網絡請求
刪選音樂文件
下載音樂文件

具體實現

1.引入發送網絡請求的第三方庫

import requests # 發送網絡請求的第三方庫

安裝方法

pip install requests

2.引入數據解析第三方庫

from lxml import etree # 數據解析第三方庫

安裝方法

pip install lxml

3.某易云音樂網站列表url為'https://music.163.com/#/discover/toplist?id=3778678'

url = 'https://music.163.com/#/discover/toplist?id=3778678'

4.發送請求獲取頁面數據

response = requests.get(urlurl=url) # 請求頁面數據

5.解析數據

html=etree.HTML(response.text) # 解析頁面數據

6.獲取所有歌曲標簽集合（ a標簽）

id_list = html.xpath('//a[contains(@href,"song?")]')  # 所有歌曲id集合

7.下載歌曲

base_url = 'http://music.163.com/song/media/outer/url?id=' # 下載音樂網址前綴  
# 下載音樂url = 網址前綴 + 音樂id  
for data in id_list:  
    href = data.xpath('./@href')[0]  
    music_id = href.split('=')[1] # 音樂id  
    music_url = base_url + music_id # 下載音樂url  
    music_name = data.xpath('./text()')[0] # 下載音樂名稱  
    music = requests.get(url = music_url)  
    # 將下載的音樂以文件形式保存下來  
    with open('./music/%s.mp3' % music_name, 'wb') as file:  
         file.write(music.content)  
         print('<%s>下載成功' % music_name)

遇到的坑

以上的方法我是從一個視頻里學到的，那個視頻是半年前出的，可能當時這種方法還好使，但是今天我在用這種方法下載音樂文件的時候突然就報錯了。

首先，編輯器報錯找不到 music_name 和 music_id ,我仔細一看，獲取的id_list集合里（也就是標簽集合里）的id根本不是id，是代碼，估計在這里音樂網站也做了相應的反扒機制。

其次，我自己在網站里找到了一首音樂獲取了它的id并把id賦值給music_id，結果當用外鏈下載音樂時報錯460，顯示網絡擁擠，估計下載音樂的網址也不好使了。

base_url = 'http://music.163.com/song/media/outer/url?id='  
music_id = '1804320463.mp3'  
music_url = base_url + music_id  
music = requests.get(url=music_url)  
print(music.text)

{"msg":"網絡太擁擠，請稍候再試！","code":-460,"message":"網絡太擁擠，請稍候再試！"}

最后，我打印出music_url,點擊進去，還是可以聽歌和下載的，不知道這是為什么了

base_url = 'http://music.163.com/song/media/outer/url?id='  
music_id = '1804320463.mp3'  
music_url = base_url + music_id  
# music = requests.get(url=music_url)  
print(music_url)

music.163.com/song/media/…

總結

現在的網站技術更新太快，很多網站都有了高級反爬機制，畢竟嘛，有些東西還是不能隨隨便便就給你的，我寫這篇文章主要是跟大家分享一下我學習python爬蟲時的一些經驗，同時，我也想請教各位大神，像遇到了我這種問題了，我應該怎么辦才能將這個網站的音樂文件爬到我的本地電腦里，還請各大神指點一二。

責任編輯：龐桂玉來源：馬哥Linux運維

python 爬蟲坑

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

利用Python爬蟲爬取網站音樂遇到的坑