一日二技:MongoDB與 Scrapy 的小技巧各一個
今天我們來講兩個小技巧。
如何更新 MongoDB 中的一個數組
我們知道,如果想給 MongoDB 的一條文檔增加一個字段,我們可以使用update_one方法:
- import pymongo
- handler = pymongo.MongoClient().db.col
- handler.update_one({'name': 'kingname'}, {'$set': {'新的字段名': '新的字段值'}})
但如果有一個字段是數組,我想向這個數組里面添加一個元素。并且,如果這個元素之前就已經在這個數組中了,就什么也不做,只要之前不存在時才添加。
這個時候,我們就可以使用$addToSet操作符來實現這個功能。
這個操作符的語法為:
- handler.update_one({'name': 'kingname'}, {'$addToSet': {'字段名': '要插入的元素'}})
我們來看一個例子。
例如對于如圖所示的一條文檔:
執行代碼:
- handler.update_one({'name': 'kingname'}, {'$addToSet': {'excellent': 'JavaScript'}})
運行以后,數組excellent變為如下圖所示:
如果插入一條已經存在的數據,那么這個數組就不會變化。例如:
- handler.update_one({'name': 'kingname'}, {'$addToSet': {'excellent': 'Python'}})
如何使用參數給 Scrapy 爬蟲增加屬性
在Scrapy 項目中,我們有時候需要在啟動爬蟲的時候,傳入一些參數,從而讓一份代碼執行不同的邏輯。這個時候,有一個非常方便的方法,就是使用-a參數。它的語法為:
- scrapy crawl 爬蟲名 -a 參數1 -a 參數2 -a 參數3
那么,傳入的這些參數,在爬蟲里面怎么使用呢?其實很簡單,你不需要做任何額外的配置,直接在爬蟲里面通過self.參數名就可以調用了。例如下面這個爬蟲:
大家可以看到,PyCharm 給兩個屬性self.body_name和self.age_from_cmdline標上了黃色的背景,這是因為PyCharm 找不到這兩個屬性是在哪里定義的。
但沒有關系,我們啟動 Scrapy 爬蟲的時候,使用-a參數傳遞進去就好了:
- scrapy crawl example -a body_name=kingname -a age_from_cmdline=28
運行效果如下圖所示:
可以看到,這個接口成功接收到了這兩個參數,并且把它顯示了出來。
本文轉載自微信公眾號「未聞Code」,可以通過以下二維碼關注。轉載本文請聯系未聞Code公眾號。