如何替換URL中的Query字段？

作者：kingname 2021-08-30 23:47:28

由于ParseResult對象的.query屬性是只讀屬性，不能覆蓋，因此我們需要調用一個內部方法._replace把新的.query字段替換上去，生成新的 ParseResult對象。最后再把它轉回網址。

[[420519]]

在我們寫爬蟲的時候，可能會需要在爬蟲里面基于當前url生成一個新的url。例如下面這段偽代碼：

import re 
current_url = 'https://www.kingname.info/archives/page/2/' 
current_page = re.search('/(\d+)', current_url).group(1) 
next_page = int(current_page) + 1 
next_url = re.sub('\d+', str(next_page), current_url) 
make_request(next_url)

運行效果如下圖所示：

但有時候，翻頁參數不一定是數字。例如有些網站，訪問一個URL：https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD

當你訪問這個url的時候，它返回的是一個JSON字符串，并且這個JSON里面，有如下字段：

... 
"paging": { 
        "cursors": { 
            "before": "MTA3NDU0NDExNDEzNTgz", 
            "after": "MTE4OTc5MjU0NDQ4NTkwMgZDZD" 
        }, 
         
    } 
...

這種情況多見于信息流網站。它只能無限下滑看下一頁，不能直接通過頁數跳頁。每次請求的時候返回下一頁的參數after。當要訪問下一頁的時候，用這個參數替換當前url中的after=后面的參數。

這樣一來，替換url中的參數就并不是一件簡單的事情了。因為網址可能有4種情況：

第一頁，沒有after參數：https://xxx.com/articlelist?category=technology
第一頁，有after參數名但沒有值：https://xxx.com/articlelist?category=technology&after=
后續頁面，after參數值后面沒有內容： https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD
后續頁面，aster參數值后面有內容：https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD&other=abc

大家可以試一試，如果用正則表達式，怎么覆蓋這4種情況，生成下一頁的網址。

實際上，我們不需要使用正則表達式。Python自帶的urllib模塊已經提供了解決這個問題的方案了。我們先來看一段代碼：

from urllib.parse import urlparse, urlunparse, parse_qs, urlencode 
 
 
def replace_field(url, name, value): 
    parse = urlparse(url) 
    query = parse.query 
    query_pair = parse_qs(query) 
    query_pair[name] = value 
    new_query = urlencode(query_pair, doseq=True) 
    new_parse = parse._replace(query=new_query) 
    next_page = urlunparse(new_parse) 
    return next_page 
 
url_list = [ 
    'https://xxx.com/articlelist?category=technology', 
    'https://xxx.com/articlelist?category=technology&after=', 
    'https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD', 
    'https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD&other=abc' 
] 
 
for url in url_list: 
    next_page = replace_field(url, 'after', '0000000') 
    print(next_page)