使用Apache HttpClient突破J2EE站點認證
出于安全性的需要和用戶授權管理的考慮,常見的 J2EE 站點對特定資源都會加入認證/授權機制。例如一個公網上的論壇,一個只對特定用戶開放的 RSS 或 Atom Feed,這些資源都必須在確信訪問者為被授權用戶時才能向訪問者開放。為了實現這樣的功能,J2EE 站點通常會采用某種站點認證機制,其中常見的有 HTTP Basic 認證和 J2EE Form-Based 認證。
HTTP Basic 認證是 HTTP 認證協議(rfc2617)所定義的標準認證方式。要求 HTTP Basic 認證的服務器會在客戶端訪問受保護資源時向客戶端發出請求,要求客戶端上傳用戶名和密碼對。服務器在收到用戶名/密碼并驗證通過后,才將保護資源的內容返回給客戶端。它的工作機制如下圖:
由于是 HTTP 規范,因而常見的瀏覽器,如 Internet Explorer,Mozilla Firefox,在 步驟 2 中收到服務器對用戶名和密碼的請求時會彈出認證對話框,供用戶輸入用戶名/密碼。
圖 2. Firefox 在收到步驟 2 中請求時彈出的用戶名/密碼輸入框
HTTP Basic 認證方式使用 base64 編碼方式傳送用戶名和密碼,而 base64 僅僅是一種公開的編碼格式而非加密措施,因而如果信道本身不使用 SSL 等安全協議,用戶密碼較容易被截獲。
Form-Based 認證不同于 HTTP Basic 認證,它是 J2EE 對于認證方式的一種擴展。它使用自定義的 HTML 表單(通常為 login.jsp)作為輸入用戶名和密碼的用戶界面,最終將用戶在表單上填入的用戶名/密碼提交至服務器。它的工作機制如下:
Form-Based 認證方式在 J2EE 站點中更為常見。這一方面是由于它提供了自定義的用戶名密碼輸入界面;另一方面它的傳輸也更為安全,通常情況下 login.jsp 會被配置為需要使用 SSL 信道訪問,這樣在步驟 2、3 中對用戶名和密碼的傳送就被安全信道所保護,而較難被非法截取。
Apache HttpClient 是 Apache 開源組織提供的純 Java 實現的 HTTP 開源包。它能模擬各類 HTTP 客戶端所需功能,例如 HTTP/HTTPS 連接,GET/PUT 請求,甚至提供了超時重試的功能。
HttpClient 也提供了對標準 HTTP 認證的接口,在最新的 HttpClient 3.1 中,支持的認證方式有:
- Basic 認證:即前面提到的 rfc2716 規范中定義的 HTTP Basic 認證方式。
- Digest 認證:一種基于摘要的更為安全的認證協議,雖然它的應用沒有 Basic 認證方式廣泛。
- NTLM 認證:微軟制定的認證協議規范,然而此項標準的細節卻并不公開。
我們可以注意到 Form-Based 認證并不在其中,這是因為 Form-Based 認證方式并非 HTTP 協議標準,而是 J2EE 提供的一種特殊的認證方式,因而開發者需要在 HttpClient 基礎上另行開發適合 Form-Based 認證的方案。
使用 Apache HttpClient 通過 HTTP Basic 認證
由于 HttpClient 內置支持 HTTP Basic 認證方式,因而使用 HttpClient 通過 HTTP Basic 認證的步驟顯得較為簡單。
- 為 HttpClient 的狀態對象添加用戶名/密碼對。可以注意到在 setCredentials 方法中的另一個參數為 AuthScope 對象。事實上我們添加的每個用戶名/密碼對都與一個 AuthScope 對象相關聯。AuthScope 對象確定了此用戶名/密碼對的適用站點,在示例中所給出的用戶名/密碼對將只適用于 www.sample.com 位于 80 端口上的資源。HttpClient 在與其他站點交互時將不會使用此用戶名/密碼對,這樣有效地防止了機密數據被傳送至不必要的站點。
- 開啟 HttpClient 提供的占先式(Preemptive)認證功能。開啟了這個功能后,HttpClient 對于那些處在之前請求過的URI空間范圍內的資源,會主動地隨請求一起向服務器發送 Basic 認證數據,而不是等待服務器返回是否需要認證的響應后再提交認證。在多數情況下,能夠減少請求-響應傳遞的次數,從而間接提高了服務器的響應能力。值得注意的是在這種情況下必須在 AuthScope 對象中明確指定適用站點,以避免向不相關的站點泄漏敏感數據。
- 創建 GetMethod 對象,此對象將使用 GET 方式對保護資源發出 HTTP 請求。
- setDoAuthentication(true) 語句將告知 HttpClient 在服務器端發回需要認證的請求后,自動將我們在步驟 1 中設置的用戶名/密碼對發送至服務器,以完成認證過程。
執行 GET 請求,獲取和處理受保護資源的內容。
- HttpClient client = new HttpClient();
- // 1
- client.getState().setCredentials(
- new AuthScope("www.sample.com", 80, AuthScope.ANY_REALM),
- new UsernamePasswordCredentials("username", "password")
- );
- // 2
- client.getParams().setAuthenticationPreemptive(true);
- // 3
- GetMethod get = new GetMethod("http://www.sample.com/protected.html");
- // 4
- get.setDoAuthentication( true );
- try {
- // 5
- int status = client.executeMethod( get );
- // process the content from the response
- …
- } finally {
- get.releaseConnection();
- }
由于 Basic 認證方式直接向服務器發送未經加密的用戶名/密碼對,導致這些敏感數據很容易在網絡傳輸過程中被截取,因此安全性很低。所幸 HttpClient 對基于安全套接字層(SSL)的 HTTP 協議(HTTPS)提供了足夠的支持,而且使用起來也很簡單。不過之前需確保本地機器已經安裝好 JSSE(Sun 提供的 JDK 1.4 及之后的版本已集成 JSSE)。
使用 HttpClient 進行標準的 SSL 連接對用戶來說是透明的。參照清單 1,用戶只需用符合 HTTPS 協議的 URL 作為參數生成 GetMethod 對象即可。除此之外,HttpClient 還允許用戶定制 SSL 使得客戶端程序能夠自動接受不同類型的證書。
利用 HttpClient 實現一個自定義的 SSL 協議包括以下 3 個關鍵步驟:
- 定制一個實現了 org.apache.commons.httpclient.protocol.SecureProtocolSocketFactory 接口的工廠類。這個工廠類的作用是開啟一個與服務器通訊的 Socket 并進行必需的初始化動作。關于實現該接口的具體細節,HttpClient 項目的主頁上有詳細的代碼實例和注釋說明。
- 利用之前創建的工廠類對象、HTTPS 協議名稱和默認端口號實例化一個新的 org.apache.commons.httpclient.protocol.Protocol 對象。
- 注冊這個自定義的 Protocol 對象使其與某個協議名綁定,當 HttpClient 處理此類協議時,將默認調用這個自定義 Protocol 對象。
清單 2. 在 HttpClient 中自定義 SSL 示例
- // 1
- SecureProtocolSocketFactory sampleSSLSocketFactory = new SampleSSLSocketFactory();
- // 2
- Protocol httpsProtocol = new Protocol("https", sampleSSLSocketFactory, 443);
- // 3
- Protocol.registerProtocol("https", httpsProtocol);
- HttpClient client = new HttpClient();
- client.getState().setCredentials(
- new AuthScope("www.sample.com", 80, AuthScope.ANY_REALM),
- new UsernamePasswordCredentials("username", "password")
- );
- // Request the protected resource via SSL
- GetMethod get = new GetMethod("https://www.sample.com/protected.html");
- get.setDoAuthentication( true );
- try {
- int status = client.executeMethod( get );
- // process the content from the response
- …
- } finally {
- get.releaseConnection();
- }
使用 Apache HttpClient 通過 Form-Based 認證
Form-Based 認證相對 HTTP Basic 認證而言過程較為復雜,需要開發者記錄下相關的 cookie 信息和部分 header 字段并多次向站點發出請求。它的大致原理如下:
假定我們需要訪問的受保護資源為 http://www.sample.com/sampleApp/sample.rss。首先我們需要向此保護資源發出請求。而由 Form-Based 認證原理一節中可知,J2EE 服務器會將此請求重定向至 login.jsp。如果仔細分析 login.jsp 我們能發現它僅僅是一個 HTML 表單,其中有兩個字段 j_username 和 j_password 分別記錄用戶名和密碼,而提交的目標則是 j_security_check。通常情況下,J2EE 構架會在每個站點應用的根節點定義一個 j_security_check 的資源。而我們的站點的應用程序根(Application Root)為 sampleApp。因而,通過將用戶名,密碼以及相關 cookie 和 header 字段以 POST 方式發送至 http://www.sample.com/sampleApp/j_security_check 即可通過站點認證。在通過站點認證后,服務器端將給出一個新的重定向,通常它將指向了用戶最初試圖訪問的受保護資源(本例中也就是 http://www.sample.com/sampleApp/sample.rss)。我們只需要再次創建訪問對象向此資源發出請求即可獲得其內容。
以下給出一個示例:
- HttpClient client = new HttpClient();
- client.getState().setCookiePolicy(CookiePolicy.COMPATIBILITY);
- // 1
- GetMethod authget = new GetMethod("httpwww.sample.comsampleAppsample.rss");
- try {
- client.executeMethod(authget);
- }
- catch (HttpException httpe) {
- httpe.printStackTrace();
- }
- catch (IOException ioe) {
- ioe.printStackTrace();
- }
- // 2
- NameValuePair[] data = new NameValuePair[2];
- data[0] = new NameValuePair("j_username", username);
- data[1] = new NameValuePair("j_password", password);
- PostMethod authpost = new PostMethod("http://www.sample.com/sampleApp/j_security_check");
- authpost.setRequestBody(data);
- // 3
- Header hCookie = authget.getRequestHeader("Cookie");
- Header hHost = authget.getRequestHeader("Host");
- Header hUserAgent = authget.getRequestHeader("User-Agent");
- if (hCookie == null || hHost == null || hUserAgent == null) {
- return null;
- }
- authpost.setRequestHeader(hCookie);
- authpost.setRequestHeader(hHost);
- authpost.setRequestHeader(hUserAgent);
- authget.releaseConnection();
- try {
- client.executeMethod(authpost);
- // 4
- Header header = authpost.getResponseHeader("location");
- if (header != null) {
- String newuri = header.getValue();
- GetMethod redirect = new GetMethod(newuri);
- client.executeMethod(redirect);
- // process the content from the response
- redirect.releaseConnection();
- }
- } catch (HttpException httpe) {
- httpe.printStackTrace();
- return null;
- } catch (IOException ioe) {
- ioe.printStackTrace();
- return null;
- }
- authpost.releaseConnection();
其中各個步驟解釋如下:
- 使用 GET 方式請求 sample.rss。服務器收到連接后將在響應中給出連接信息,HttpClient 在接收到響應后會將其保存至 cookie 中。
- 準備第二次對 j_security_check 的連接,將用戶名和密碼填入新的 POST 請求的正文。
- 將 cookie 和部分 header 字段拷貝至新請求的報頭中,并發送請求。
- 從認證成功的響應中獲取重定向,并對重定向指向的資源發出請求,獲取并處理內容。
隨著 Web 2.0 時代的到來,Web 站點的數據和內容顯得愈加重要。而為了收集這些數據,人們需要利用計算機本身的搜集能力,通過后臺請求,而不是瀏覽器交互的方式去獲取站點的數據。而商業站點中普遍存在的認證/授權機制顯然成為了開發此類數據收集程序的一道屏障。Apache HttpClient 根據這些需求,提供了多種 HTTP 認證機制的實現方案。開發人員也可以利用 HttpClient 強大的底層功能,設計特定方案以通過 J2EE 站點的認證體系。
原文鏈接:http://www.ibm.com/developerworks/cn/java/j-lo-httpclient-j2ee/
【編輯推薦】