在Scrapy中如何利用CSS選擇器從網頁中采集目標數據——詳細教程（上篇）

作者：Python進階者 2020-10-29 09:25:34

今天小編給大家介紹Scrapy中另外一種選擇器，即大家經常聽說的CSS選擇器。

/前言/

今天小編給大家介紹Scrapy中另外一種選擇器，即大家經常聽說的CSS選擇器。

/CSS基礎/

CSS選擇器和Xpath選擇器的功能是一致的，都是幫助我們去定位網頁結構中的某一個具體的元素，但是在語法表達上有區別。Xpath選擇器明明已經可以幫助我們提取信息了，為什么還要學習CSS選擇器呢？

蘿卜青菜各有所愛，對于不同知識背景的小伙伴，都可以來提取網頁信息。只要是能抓到老鼠的貓，都是好貓，同樣的，只要能提取信息，不論是正則表達式、BeateafulSoup、Xpath選擇器亦或是CSS選擇器，都是好的選擇器，只不過在效率和難易程度上不一樣。此外，對應前端的小伙伴來說，CSS選擇器對他們來說就簡單很多。

CSS選擇器功能強大，從實用性出發，下面是部分比較常用的一些CSS選擇器語法，相對來說比較簡單，但是也是非常實用的語法，希望大家都可以牢牢掌握，后期在提取網頁信息的時候將會事半功倍。

有了以上的CSS基礎之后，接下來我們進行實際應用。

/實際應用/

仍然以之前的網站為例進行說明，我們的目標數據是標題、發布日期、主題、正文內容、點贊數、收藏數、評論數等。

1、關于標題部分，之前我們利用Xpath的表達式的時候就分析過，得到了唯一性的定位標簽，在此不再贅述，如下圖所示。

2、仍然利用scrapyshell的調試模式進行助攻，結合上邊的CSS基礎語法，標題的具體CSS表達式如下圖所示。

需要注意的是在CSS中獲取標簽文本內容的方式是在CSS表達式后邊緊跟“::text”，記住是有兩個冒號噢，與Xpath表達式不一樣。這個表達式看上去比Xpath表達式要簡潔一些，所以當某些情況下，大家如果覺得CSS選擇器的表達式比Xpath表達式要簡短或者理解起來相對容易的話，可以首選CSS選擇器，沒有具體的要求，大家根據自己的喜愛來進行選擇即可，反之亦成立，當然也可以同時在一個爬蟲文件將兩個或者多個選擇器進行交叉使用。

3、接下來是發布日期的提取，仍然是以交互式的方式實現網頁與源碼之間的交互，其中標簽“entry-meta-hide-on-mobile”具有全局唯一性，可以很方便的定位到元素，如下圖所示。