http協議與http代理
TCP/IP(Transmission Control Protocol/InternetProtocol,傳輸控制協議/網際協議)是用于計算機通信的一個協議族。 TCP/IP協議族包括諸如Internet協議(IP)、地址解析協議(ARP)、互聯網控制信息協議(ICMP)、用戶數據報協議(UDP)、傳輸控制協議(TCP)、路由信息協議(RIP)、Telnet、簡單郵件傳輸協議(SMTP)、域名系統(DNS)等協議。
1. 應用層 應用層包含一切與應用相關的功能,我們經常使用的HTTP、FTP,Telnet、SMTP等協議都在這一層實現。
2. 傳輸層 傳輸層負責提供可靠的傳輸服務。在該層中,典型的協議是TCP(Transmission Control Protocol)和UDP(User Datagram Protocol)。其中,TCP提供可靠、有序的,面向連接的通信服務;而UDP則提供無連接的、不可靠用戶數據報服務。
3. 網際層 網際層負責網絡間的尋址和數據傳輸,在該層中,典型的協議是IP(Internet Protocol)。
4. 網絡接口層 最下面一層是網絡接口層,負責數據的實際傳輸.網絡接口層在發送端將上層的IP數據報封裝成幀后發送到網絡上;數據幀通過網絡到達接收端時,該結點的網絡接口層對數據幀拆封,并檢查幀中包含的MAC地址。如果該地址就是本機的MAC地址或者是廣播地址,則上傳到網絡層,否則丟棄該幀。
圖1 TCP/IP協議棧
協議概述
HTTP是一個客戶端終端(用戶)和服務器端(網站)請求和應答的標準(TCP)。通過使用Web瀏覽器、網絡爬蟲或者其它的工具,客戶端發起一個HTTP請求到服務器上指定端口(默認端口為80)。我們稱這個客戶端為用戶代理程序(user agent)。應答的服務器上存儲著一些資源,比如HTML文件和圖像。我們稱這個應答服務器為源服務器(origin server)。在用戶代理和源服務器中間可能存在多個中間層,比如代理,網關,或者隧道(tunnel)。
盡管TCP/IP協議是互聯網上***的應用,HTTP協議中,并沒有規定必須使用它或它支持的層。事實上,HTTP可以在任何互聯網協議上,或其他網絡上實現。HTTP假定其下層協議提供可靠的傳輸。因此,任何能夠提供這種保證的協議都可以被其使用。因此也就是其在TCP/IP協議族使用TCP作為其傳輸層。
通常,由HTTP客戶端發起一個請求,創建一個到服務器指定端口(默認是80端口)的TCP連接。HTTP服務器則在那個端口監聽客戶端的請求。一旦收到請求,服務器會向客戶端返回一個狀態,比如"HTTP/1.1 200 OK",以及返回的內容,如請求的文件、錯誤消息、或者其它信息。
請求信息(Request Message)
發出的請求信息包括以下幾個
·1. 請求行
例如GET /images/logo.gif HTTP/1.1,表示從/images目錄下請求logo.gif這個文件。
2. 請求頭
例如Accept-Language: en
3. 空行
4. 其他消息體
請求行和標題必須以作為結尾。空行內必須只有而無其他空格。在HTTP/1.1協議中,所有的請求頭,除Host外,都是可選的。
請求方法
HTTP/1.1協議中共定義了八種方法(也叫“動作”)來以不同方式操作指定的資源:
1. OPTIONS:這個方法可使服務器傳回該資源所支持的所有HTTP請求方法。用'*'來代替資源名稱,向Web服務器發送OPTIONS請求,可以測試服務器功能是否正常運作。
2. HEAD:與GET方法一樣,都是向服務器發出指定資源的請求。只不過服務器將不傳回資源的本文部份。它的好處在于,使用這個方法可以在不必傳輸全部內容的情況下,就可以獲取其中“關于該資源的信息”(元信息或稱元數據)。
3. GET:向指定的資源發出“顯示”請求。使用GET方法應該只用在讀取數據,而不應當被用于產生“副作用”的操作中,例如在Web Application中。其中一個原因是GET可能會被網絡蜘蛛等隨意訪問。參見安全方法
4. POST:向指定資源提交數據,請求服務器進行處理(例如提交表單或者上傳文件)。數據被包含在請求本文中。這個請求可能會創建新的資源或修改現有資源,或二者皆有。
5. PUT:向指定資源位置上傳其***內容。
6. DELETE:請求服務器刪除Request-URI所標識的資源。
7. TRACE:回顯服務器收到的請求,主要用于測試或診斷。
8. CONNECT:HTTP/1.1協議中預留給能夠將連接改為管道方式的代理服務器。通常用于SSL加密服務器的鏈接(經由非加密的HTTP代理服務器)。
方法名稱是區分大小寫的。當某個請求所針對的資源不支持對應的請求方法的時候,服務器應當返回狀態碼405(Method Not Allowed),當服務器不認識或者不支持對應的請求方法的時候,應當返回狀態碼501(Not Implemented)。
HTTP服務器至少應該實現GET和HEAD方法,其他方法都是可選的。當然,所有的方法支持的實現都應當符合下述的方法各自的語義定義。此外,除了上述方法,特定的HTTP服務器還能夠擴展自定義的方法。例如:
PATCH(由RFC5789指定的方法):用于將局部修改應用到資源。
HTTPS
目前有兩種方法來創建安全超文本協議連接:HTTPS URI方案和HTTP 1.1請求頭(由RFC2817引入)。由于瀏覽器對后者的幾乎沒有任何支持,因此HTTPS URI方案仍是創建安全超文本協議連接的主要手段。安全超文本連接協議使用https://代替http://
安全方法
對于GET和HEAD方法而言,除了進行獲取資源信息外,這些請求不應當再有其他意義。也就是說,這些方法應當被認為是“安全的”。 客戶端可能會使用其他“非安全”方法,例如POST,PUT及DELETE,應該以特殊的方式(通常是按鈕而不是超鏈接)告知客戶可能的后果(例如一個按鈕控制的資金交易),或請求的操作可能是不安全的(例如某個文件將被上傳或刪除)。
但是,不能想當然地認為服務器在處理某個GET請求時不會產生任何副作用。事實上,很多動態資源會把這作為其特性。這里重要的區別在于用戶并沒有請求這一副作用,因此不應由用戶為這些副作用承擔責任。#p#
副作用
假如在不考慮諸如錯誤或者過期等問題的情況下,若干次請求的副作用與單次請求相同或者根本沒有副作用,那么這些請求方法就能夠被視作“冪等”的。GET,HEAD,PUT和DELETE方法都有這樣的冪等屬性,同樣由于根據協議,OPTIONS,TRACE都不應有副作用,因此也理所當然也是冪等的。
假如某個由若干個請求做成的請求串行產生的結果在重復執行這個請求串行或者其中任何一個或多個請求后仍沒有發生變化,則這個請求串行便是“冪等”的。但是,可能出現若干個請求做成的請求串行是“非冪等”的,即使這個請求串行中所有執行的請求方法都是冪等的。例如,這個請求串行的結果依賴于某個會在下次執行這個串行的過程中被修改的變量。
版本
超文本傳輸協議已經演化出了很多版本,它們中的大部分都是向下兼容的。在RFC2145中描述了HTTP版本號的用法。客戶端在請求的開始告訴服務器它采用的協議版本號,而后者則在響應中采用相同或者更早的協議版本。
HTTP/0.9
已過時。只接受GET一種請求方法,沒有在通訊中指定版本號,且不支持請求頭。由于該版本不支持POST方法,因此客戶端無法向服務器傳遞太多信息。
HTTP/1.0
這是***個在通訊中指定版本號的HTTP協議版本,至今仍被廣泛采用,特別是在代理服務器中。
HTTP/1.1
當前版本。持久連接被默認采用,并能很好地配合代理服務器工作。還支持以管道方式在同時發送多個請求,以便降低線路負載,提高傳輸速度。
HTTP/1.1相較于HTTP/1.0協議的區別主要體現在:
· 緩存處理
· 帶寬優化及網絡連接的使用
· 錯誤通知的管理
· 消息在網絡中的發送
· 互聯網地址的維護
· 安全性及完整性
狀態碼
所有HTTP響應的***行都是狀態行,依次是當前HTTP版本號,3位數字組成的狀態代碼,以及描述狀態的短語,彼此由空格分隔。
狀態代碼的***個數字代表當前響應的類型:
· 1xx消息——請求已被服務器接收,繼續處理
· 2xx成功——請求已成功被服務器接收、理解、并接受
· 3xx重定向——需要后續操作才能完成這一請求
· 4xx請求錯誤——請求含有詞法錯誤或者無法被執行
· 5xx服務器錯誤——服務器在處理某個正確請求時發生錯誤
雖然RFC2616中已經推薦了描述狀態的短語,例如"200 OK","404 Not Found",但是WEB開發者仍然能夠自行決定采用何種短語,用以顯示本地化的狀態描述或者自定義信息。
持續連接
在HTTP 0.9和1.0使用非持續連接,在非持續連接下,每個tcp只連接一個web對象,連接在每個請求-回應對后都會關閉,一個連接可被多個請求重復利用的保持連接機制被引入。這種連接持續化顯著地減少了請求延遲,因為客戶不用在***請求后再次進行TCP交互確認創建連接。現在在HTTP 1.1使用持續連接,不必為每個web對象創建一個新的連接,一個連接可以傳送多個對象。 HTTP1.1還進行了帶寬優化,例如1.1引入了分塊傳輸編碼來允許流化傳輸持續連接上發送的內容,取代原先的buffer式傳輸。HTTP管道允許客戶在上一個回應被收到前發送多重請求從而進一步減少了延遲時間。
另一項協議的改進是byte serving(字節服務),允許服務器根據客戶的請求僅僅傳輸資源的一部分。
協議例子
基本HTTP協議
下面是一個HTTP客戶端與服務器之間會話的例子,運行于www.google.com,端口80
客戶端請求:
GET / HTTP/1.1
Host:www.google.com
(末尾有一個空行。***行指定方法、資源路徑、協議版本;第二行是在1.1版里必帶的一個header作用指定主機)
服務器應答:
HTTP/1.1 200 OK
Content-Length: 3059
Server: GWS/2.0
Date: Sat, 11 Jan 2003 02:44:04 GMT
Content-Type: text/html
Cache-control: private
Set-Cookie:PREF=ID=73d4aef52e57bae9:TM=1042253044:LM=1042253044:S=SMCc_HRPCQiqy
X9j; expires=Sun, 17-Jan-2038 19:14:07 GMT; path=/;domain=.google.com
Connection: keep-alive
(緊跟著一個空行,并且由HTML格式的文本組成了Google的主頁)
AJAX應用實例
AJAX即“Asynchronous JavaScript and XML”(異步的JavaScript與XML技術),指的是一套綜合了多項技術的瀏覽器端網頁開發技術。傳統的Web應用允許用戶端填寫表單(form),當提交表單時就向Web服務器發送一個請求。服務器接收并處理傳來的表單,然后送回一個新的網頁,但這個做法浪費了許多帶寬,因為在前后兩個頁面中的大部分HTML碼往往是相同的。由于每次應用的溝通都需要向服務器發送請求,應用的回應時間依賴于服務器的回應時間。這導致了用戶界面的回應比本機應用慢得多。與此不同,AJAX應用可以僅向服務器發送并取回必須的數據,并在客戶端采用JavaScript處理來自服務器的回應。因為在服務器和瀏覽器之間交換的數據大量減少,服務器回應更快了。同時,很多的處理工作可以在發出請求的客戶端機器上完成,因此Web服務器的負荷也減少了。AJAX不是指一種單一的技術,而是有機地利用了一系列相關的技術。雖然其名稱包含XML,但實際上數據格式可以由JSON代替,進一步減少數據量,形成所謂的AJAJ。一句話,AJAX基于HTTP協議。#p#
代碼清單test.html:
- <script src="jquery.js"></script>
- <!-- Javascript -->
- <script type="text/javascript">
- $(document).ready(function (){
- $("#btn392").click(function(){
- var url = "http://www.pureexample.com/backend/ajax_crossdomain.aspx";
- //var url = "http://127.0.0.1:5000";
- //[{ "Manufacturer": "HUMMER", "Sold": 120, "Month": "2012-11"}]
- var success = function(data){
- var html = [];
- data = $.parseJSON(data); /* parse JSON */
- /* loop through array */
- $.each(data, function(index, d){
- html.push("Manufacturer : ", d.Manufacturer, ", ",
- "Sold : ", d.Sold, ", ",
- "Month : ", d.Month, "<br>");
- });
- $("#div391").html(html.join('')).css("background-color", "orange");
- };
- $.ajax({
- type: 'GET',
- url: url,
- data:{todo:"jsonp"},
- dataType: "jsonp",
- crossDomain: true,
- cache:false,
- success: success,
- error:function(jqXHR, textStatus, errorThrown){
- alert(errorThrown);
- }
- });
- });
- });
- </script>
- <!-- HTML -->
- <a name="#jsonp-ajax"></a>
- <div id="example-section39">
- <div>Car sale report</div>
- <div id="div391"></div>
- <button id="btn392" type="button">Click </button>
- </div>
普通情況下雙向抓包信息:
GET /backend/ajax_crossdomain.aspx?callback=jQuery111006746286363340914_1393568973731&todo=jsonp&_=1393568973732HTTP/1.1 Host: www.pureexample.com Connection:keep-alive Accept: */* User-Agent:Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) UbuntuChromium/31.0.1650.63 Chrome/31.0.1650.63 Safari/537.36 Accept-Encoding:gzip,deflate,sdch /* 回包壓縮 */ Accept-Language:zh-CN,zh;q=0.8,en;q=0.6 Cookie:__cfduid=da94308c9f886169fb62c872c48d44e7c1393554685481 HTTP/1.1 200 OK Server:cloudflare-nginx Date: Fri, 28 Feb2014 06:31:01 GMT Content-Type:text/html; charset=utf-8 Transfer-Encoding:chunked Connection:keep-alive Cache-Control:private Vary:Accept-Encoding Set-Cookie:ASP.NET_SessionId=yofjwnenn0cs5ijxx1jrdq55; path=/; HttpOnly X-AspNet-Version:2.0.50727 X-Powered-By:ASP.NET X-Powered-By-Plesk:PleskWin CF-RAY:103b11cb0d290378-LAX Content-Encoding:gzip 78 /* chunck大小為0x78字節*/ ........... /* 回包為壓縮形式 */ ,M-.4444003713.0363661.44.74.465..47676.P..V..%..........."%+.%.P__.%..dp~N P........+...2204.54T..U....... a ...t..t... 0
通過分析雙向的數據包可以看出,若請求頭的Accept-Enconding為gzip,則服務端的回包會以壓縮數據的形式回傳。#p#
去掉壓縮雙向抓包信息
通過分析雙向的數據包可以看出,若請求頭無Accept-Enconding信息,則服務端的回包會以普通形式回傳。如果HTTP請求頭為HTTP/1.0則,回應信息無Content-Length或CHUNCK的信息字段。
GET /backend/ajax_crossdomain.aspx?callback=jQuery111007808388310950249_1393570158984&todo=jsonp&_=1393570158985HTTP/1.0 Host:www.pureexample.com Connection:keep-alive Accept: */* User-Agent:Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) UbuntuChromium/31.0.1650.63 Chrome/31.0.1650.63 Safari/537.36 Via: 1.1mtnproxy Accept-Language:zh-CN,zh;q=0.8,en;q=0.6 Cookie:__cfduid=da94308c9f886169fb62c872c48d44e7c1393554685481;ASP.NET_SessionId=yofjwnenn0cs5ijxx1jrdq55 HTTP/1.1 200 OK Server:cloudflare-nginx Date: Fri, 28 Feb2014 06:50:16 GMT Content-Type:text/html; charset=utf-8 Connection: close Cache-Control:private X-AspNet-Version:2.0.50727 X-Powered-By:ASP.NET X-Powered-By-Plesk:PleskWin CF-RAY:103b2dfbb05c0378-LAX jQuery111007808388310950249_1393570158984('[{ "Manufacturer":"HUMMER", "Sold":120, "Month":"2012-11"}]')
組成要素
HTTP協議的展示,需要4個基本的要素,包括一個規范即http協議本身以及三個實體,即資源文件、web服務器,瀏覽器。http協議規范了客戶端與服務器之間數據交互的格式;資源文件包括html,js,css,等展示文件;web服務器用于存儲資源文件,并響應瀏覽器的資源文件請求;瀏覽器從web服務器上請求資源文件,并解析展示。
圖2 組成元素
如圖1所示,web服務器接入于公網,ip地址為61.155.154.42, url為www.demo.com。 資源文件包括index.html,index.js,index.css,others位于服務器的虛擬根目錄下,index.html索引文件index.js,index.css。
圖3 資源文件
若用戶在瀏覽器的地址欄中輸入www.demo.com并回車鍵確認,則將觸發以下流程:
· 瀏覽器所在客戶端主機通過DNS查詢,獲取www.demo.com所對應的ip地址,并作為客戶端與該ip地址對應的服務端建立http連接
· 瀏覽器向服務器發起http根請求,瀏覽器從本機取出根文件index.html并回應瀏覽器
· 瀏覽器從根請求回應中解析index.html文件中所引入的資源文件列表index.js,index.css等文件
· 瀏覽器再次分別向服務器發起index.js,index.css等文件請求
· 瀏覽器獲取所有文件之后,解析渲染出所有資源文件,提供ui接口給用戶
圖4 資源獲取流程#p#
代理服務
通過以上描述,我們知道,http代理服務器即是一個http協議的中繼。其所完成的任務是插入瀏覽器與服務器之間的通信,截獲瀏覽器的http請求,并模擬瀏覽器向服務器發起http請求,并把服務器的http回應,轉回應于瀏覽器。這個動作對應瀏覽器來說,是透明的,但是對于開發者來說,可以在代理服務器上做手腳,修改雙向的報文。可以通過兩種方式來實現http代理,其一為應用程序代理,其二tcp代理,其特征分別為:
應用層代理,瀏覽器與代理服務器,代理服務器與服務器兩個通信組隊之間,分別建立tcp連接,并進行tcp數據傳輸。代理服務器與瀏覽器握手之后,截獲瀏覽器發出的GET報文,獲取HOST字段與服務器握手,并把GET報文進行處理之后,轉發給服務器,等待服務器的回包,并轉發給瀏覽器。整個流程可以在應用層完成。
圖5 應用層代理服務器
可以看出代理服務器對客戶端上來的GET報文有修改:1)HTTP/1.1修改為HTTP/1.0, 這樣修改有兩個作用,服務器對HTTP/1.0請求的回應報文沒有Content-Length, 或CHUNCK的標示,而這兩個標示與應用程序數據的長度相關,如果采用HTTP/1.1的請求,則在修改服務器的回包之后(回包長度發生變化),需要重新修改Content-Length或CHUNCK兩個屬性的值,而這兩個值的修改增加了開發的難度;其二,服務器對HTTP/1.0回應不會保持長連接,即圖中服務器響應index.html之后,tcp連接關閉,這樣對于代理軟件來說,軟件容易穩定,降低了開發難度。
· TCP層代理
Ø TCP報文插入
在TCP層做報文注入,涉及到了修改報文雙向sequence, ack-sequence值的問題。原因在于seq值與ack值與實際報文長度相關,如果修改了報文長度,顯然需要修改seq, ack值:
圖6 TCP之SEQ與ACK
Ø TCP層代理報文插入
如圖7所示,代理需要維護兩個狀態機,收到服務端帶fin報文的數據包之后,和服務端完成結束握手;同時去除fin報文的fin標志,把改報文發給瀏覽器,同時完成和瀏覽器的報文插入以及結束握手:
圖7 TCP之SEQ與ACK
Ø TCP層代理狀態機
1. Eth0收到http報文的結束幀(帶fin)
2. 代理去掉fin標志
3. 代理插入一段報文,并加上fin標志
4.瀏覽器對原始的http結束報文回應fin:
問題:看起來服務器到瀏覽器的fin報文,并沒有被代理扔掉,故而瀏覽器收到了兩幀fin報文。