URL中的空格、加號究竟應該使用何種方式編碼
本文轉載自微信公眾號「Gopher指北」,作者新世界雜貨鋪。轉載本文請聯系Gopher指北公眾號。
URL中不能顯示地包含空格這已經是一個共識,而空格以何種形式存在,在不同的標準中又不完全一致,以致于不同的語言也有了不同的實現。
rfc2396中明確表示空格應該被編碼為%20。
而W3C的標準中卻又說空格可以被替換為+或者%20。
老許當場懵逼,空格被替換為+,那+本身只能被編碼。既然如此,為什么不直接對空格進行編碼呢。當然這只是老許心中的疑惑,以前的背景我們已經無法追溯,已成的事實我們也無法改變。但,空格到底是被替換為+還是20%,+是否需要被編碼都是現在的我們需要直面的問題。
Go常用的三種URL編碼方式
作為Gopher最先關注的自然是Go語言本身的實現,因此我們首先了解一下Go中常用的三種URL編碼方式的異同。
url.QueryEscape
- fmt.Println(url.QueryEscape(" +Gopher指北"))
- // 輸出:+%2BGopher%E6%8C%87%E5%8C%97
使用url.QueryEscape編碼時,空格被編碼為+,而+本身被編碼為%2B。
url.PathEscape
- fmt.Println(url.PathEscape(" +Gopher指北"))
- // 輸出:%20+Gopher%E6%8C%87%E5%8C%97
使用url.PathEscape編碼時,空格被編碼為20%, 而+則未被編碼。
url.Values
- var query = url.Values{}
- query.Set("hygz", " +Gopher指北")
- fmt.Println(query.Encode())
- // 輸出:hygz=+%2BGopher%E6%8C%87%E5%8C%97
使用(Values).Encode方法編碼時,空格被編碼為+,而+本身被編碼為%2B,進一步查看(Values).Encode方法的源碼知其內部仍舊調用url.QueryEscape函數。而(Values).Encode方法和url.QueryEscape的區別在于前者僅編碼query中的key和value,后者會對=、&均進行編碼。
對我們開發者而言,這三種編碼方式到底應該使用哪一種,請繼續閱讀后文相信你可以在后面的文章中找到答案。
不同語言中的實現
既然空格和+在Go中的URL編碼方式有不同的實現,那在其他語言中是否也存在這樣的情況呢,下面以PHP和JS為例。
PHP中的URL編碼
urlencode
- echo urlencode(' +Gopher指北');
- // 輸出:+%2BGopher%E6%8C%87%E5%8C%97
rawurlencode
- echo rawurlencode(" +Gopher指北");
- // 輸出:%20%2BGopher%E6%8C%87%E5%8C%97
PHP的urlencode和Go的url.QueryEscape函數效果一致,而rawurlencode則將空格和+均進行編碼。
JS中的URL編碼
encodeURI
- encodeURI(' +Gopher指北')
- // 輸出:%20+Gopher%E6%8C%87%E5%8C%97
encodeURIComponent
- encodeURIComponent(' +Gopher指北')
- // 輸出:%20%2BGopher%E6%8C%87%E5%8C%97
JS的encodeURI和Go的url.PathEscape函數效果一致,而encodeURIComponent則將空格和+均進行編碼。
我們應該怎么做
更推薦使用url.PathEscape函數編碼
在前文中已經總結了Go、PHP和JS對+Gopher指北的編碼操作,下面總結一下其對應的解碼操作是否可行的二維表。
編碼/解碼 | url.QueryUnescape | url.PathUnescape | urldecode | rawurldecode | decodeURI | decodeURIComponent |
---|---|---|---|---|---|---|
url.QueryEscape | Y | N | Y | N | N | N |
url.PathEscape | N | Y | N | YY | Y | YY |
urlencode | Y | N | Y | N | N | N |
rawurlencode | Y | YY | Y | Y | N | Y |
encodeURI | N | Y | N | Y | Y | Y |
encodeURIComponent | Y | YY | Y | Y | N | Y |
上表中的YY和Y同含義,老許僅以YY表示在Go中推薦使用url.PathEscape進行編碼,同時在PHP和JS中分別推薦使用rawurldecode和decodeURIComponent進行解碼。
在實際的開發過程中,Gopher一定會存在需要解碼的場景,此時就需要和URL編碼方進行溝通以得到合適的方式解碼。
對值進行編碼
那有沒有通用的不需要URL編解碼的方式呢?毫無疑問是有的!以base32編碼為例,其編碼字符集為A-Z和數字2-7,此時對值進行base32編碼后就無需url編碼了。
最后,衷心希望本文能夠對各位讀者有一定的幫助。
本文使用環境分別為PHP 7.3.29、go 1.16.6和js Chrome94.0.4606.71的Console
參考
https://www.rfc-editor.org/rfc/rfc2396.txt
https://www.w3schools.com/tags/ref_urlencode.ASP