編程實戰:如何在程序中解析域名
本文轉載自微信公眾號「小菜學編程」,作者fasionchan。轉載本文請聯系小菜學編程公眾號。
由于域名比 IP 地址更便于記憶,我們通常使用它來訪問網絡服務。
網絡應用客戶端想要跟服務端通信,必須先向 DNS 服務器查詢域名對應的 IP 地址。舉個例子,讀者訪問我的網站 fasionchan.com 時,瀏覽器需要先根據域名查詢網站的 IP 地址,再和網站的 Web 服務器進行通信。
那么,如何通過編程實現域名查詢呢?這是開發網絡應用無法回避的問題。
我們知道,DNS 服務器和客戶端之間使用 DNS 協議進行通信:客戶端先向服務器發送 請求報文 ,服務器將查詢結果封裝成 應答報文 ,回復客戶端。DNS 可以使用 UDP 或 TCP 作為傳輸層協議,通信端口號為 53 。
假設客戶端使用 UDP 協議,一次域名查詢的步驟大致如下:
- 創建一個 UDP 套接字;
- 封裝 DNS 請求報文,待查詢域名位于問題節;
- 通過 UDP 套接字,將請求報文發給 DNS 服務器(服務端端口一般是 53 );
- 等待服務端響應,并從 UDP 套接字讀取應答報文;
- 解析應答報文,獲得查詢結果;
- 關閉 UDP 套接字;
如果每個網絡應用都需要自行封裝 DNS 報文實現域名查詢,未免太麻煩了!為此,C庫提供了一系列工具函數。應用程序只需調用這些工具函數,即可完成域名查詢,不用自己操作套接字,或者封裝 DNS 報文。
示例程序
這個程序調用 C 庫函數 gethostbyname ,將用戶在命令行參數中指定的域名查詢出來:
- #include <arpa/inet.h>
- #include <netdb.h>
- #include <stdio.h>
- int main(int argc, char *argv[]) {
- if (argc != 2) {
- fprintf(stderr, "bad arguments");
- return -1;
- }
- char *name = argv[1];
- printf("resolve domain name: %s\n", name);
- struct hostent *result = gethostbyname(name);
- if (result == NULL) {
- if (h_errno == HOST_NOT_FOUND) {
- fprintf(stderr, "Hostname not found!\n");
- }
- if (h_errno == NO_DATA) {
- fprintf(stderr, "No such record\n");
- }
- if (h_errno == NO_RECOVERY) {
- fprintf(stderr, "\n");
- }
- if (h_errno == TRY_AGAIN) {
- fprintf(stderr, "Temporary error occurred, please try again!\n");
- }
- return -1;
- }
- int i = 0;
- while (result->h_addr_list[i] != NULL) {
- printf("IP: %s\n", inet_ntoa(*(struct in_addr *)result->h_addr_list[i]));
- i++;
- }
- return 0;
- }
顧名思義,gethostbyname 根據域名查詢主機的地址,結果一般是 IP 地址或者 IPv6 地址。
請看程序第 14 行,以待查詢域名為參數調用 gethostbyname 函數;它返回一個 hostent 結構體指針,結構體中保存著域名查詢結果。
第 15-33 行,檢查域名解析結果,空表示出錯;出錯時根據 h_errno 的值,分情況處理(詳情請見后文)。
第 35-39 行,從 hostent 結構體中取出查詢結果,并打印到屏幕上。
那么, gethostbyname 庫函數內部都做了些什么呢?答案其實不難猜到。它會幫我們創建 UDP 套接字、發送 DNS 請求報文、接收并解析應答報文。以這個程序為例,它的執行流(藍線)大致如下:
域名查詢庫函數
實際上,C 庫提供了一系列工具函數,用于域名查詢:
- gethostbyname ,查詢指定域名,查詢結果保存在 hostent 結構體中,指針被返回給調用者;
- gethostbyname_r ,同上,為線程安全版本,可在多線程環境中使用;
- gethostbyname2 ,同一,但支持通過 af 參數指定查詢地址類型;
- gethostbyname2_r ,同三,為線程安全版本,可在多線程環境中使用;
以 gethostbyname 為例,如果查詢成功,它將返回一個 hostent 結構體指針,結構體保存著查詢結果。如果查詢出錯,它將返回 NULL ,并將錯誤保存 h_errno 全局變量。一般而言,域名查詢出錯,可以分為這幾種情況:
HOST_NOT_FOUND ,表示指定主機不存在,即域名不存在;
NO_DATA ,表示域名存在其他記錄,但沒有地址相關記錄( A 或者 AAAA );
NO_RECOVERY ,域名服務器出現不可恢復錯誤;
TRY_AGAIN ,臨時出錯,可通過重試恢復;
當域名查詢失敗時,調用者必須檢查 h_errno 變量,分情況進行處理。
局限性
在網絡爬蟲、Socks5 代理等應用場景,域名查詢非常頻繁。這時直接使用 gethostbyname 系列庫函數,很有可能會面臨性能瓶頸。
一方面,gethostbyname 庫函數每次查詢域名時,都要創建一個 UDP 套接字來跟 DNS 服務器通信。這意味著,頻繁的域名查詢背后,必然伴隨著大量套接字的創建和銷毀,開銷可想而知!
另一方面,gethostbyname 庫函數將一直阻塞,直到 DNS 服務器返回結果或者查詢超時。這將嚴重制約系統的并發處理能力。
因此,在高頻查詢場景,不能直接使用 gethostbyname 等庫函數,必須采用一些經過優化的異步域名解析庫。
擴展閱讀
gethostbyname