如何防范網站信息泄漏
每天您是否收到數封垃圾郵件,每天您是否接到無數“騷擾”電話,每天您是否會收到數條垃圾短信,也許三個也許中都是肯定,這一切毫無例外都會耗費您生命中的時間,可是您是否曾經深入思考過為什么您老是收到這些“贈品”,其實收到這些贈品的最直接原因就是您的個人信息被泄漏了。網絡技術的飛速發展,給生活帶來便利的同時,也帶來了許多新的問題,網站信息泄漏是個人信息泄漏的一個主要途徑之一,而個人信息中的手機、電話、Email等信息又是網絡“黑色產業”中最為關鍵的部分,個人信息泄漏不僅僅給生活帶來不便,而如果不良用心的人利用社會工程學等,將給個人帶來巨大的經濟損失。
寫過網站程序以及維護個人(商業)網站的朋友對網站信息泄漏也一定不會陌生,而且還非常頭疼,特別是個人客戶信息的泄漏。網站信息泄漏的主要原因還是安全問題,本文通過自己切身經歷,對個人信息泄漏中的如何刪除網頁快照、網站信息泄漏途徑及其解決方法進行探討,歡迎有興趣的朋友一起來進行網站安全等方面的探討。
(一)網站信息泄漏途徑
網站信息泄漏的主要途徑有以下三個方面:
1.老板“黑”。
呵呵,寫到這里,很多老板都會不滿意,嘿嘿,我說的這個“黑”跟黑客的黑有些類似,現在有些(不是全部)提供虛擬主機以及主機托管的ISP服務商會將其客戶的商業(個人)網站收集,然后進行出售。據了解有的是出售網站源代碼,有的是出售客戶信息。需要證明的朋友可以到北京的一些過街天橋上面,會有人出售企業名錄、名人名錄等。其中中產以上階層是主要關注對象,比如老板名錄,經理名錄,車主個人信息(圖1)。

圖1 個人信息泄漏
驗證途徑:
(1)“北京16萬名新車主個人詳細信息被書商公開叫賣”網頁訪問地址:
[url]http://www.southcn.com/news/community/shzt/privacy/annoyance/200509160468.htm[/url]
2.駭客“黑”。
說這個大家都明白,現在很多駭客都是以商業利益(盜取QQ號、盜取游戲帳號、盜取個人銀行帳號等)為重,譬如“熊貓病毒”,就有一條完整的商業體系,而網站是駭客利益首選之地,網站是網頁掛馬的必經之路。因此駭客會利用一切安全漏洞來對網站進行攻擊以獲取對網站以及網站服務器的完全控制,而在獲得控制后,會對網站信息進行分析,判斷是否有商業價值。
3.搜索引擎“黑”。
搜索引擎“黑”跟傳統意義上的黑不一樣,應該說厲害才是,現在很多搜索引擎例如Google、百度等會將網站的所有網頁文件進行抓取,然后形成網頁快照,驗證方式如下:
(1)在百度搜索引擎搜索框中輸入“詳細個人信息”然后單擊“百度搜索”會出來2600,000多條搜索記錄(圖2);對比百度在Google中搜索同樣關鍵詞,Google搜索引擎一共有,14,800,000條搜索記錄(圖3)。

圖2百度搜索個人信息

圖3 Google搜索個人信息
(2)更改搜索關鍵詞,在在百度搜索引擎搜索框中輸入“個人詳細信息”然后單擊“百度搜索”會出來1,150,000多條搜索記錄;對比百度在Google中搜索同樣關鍵詞,Google搜索引擎一共有15,200,000條搜索記錄。
說明:對于收集個人信息的網絡高手來說,要收集某一個網站的一些關鍵信息,可以按照“site:[url]www.somesite.com[/url] 聯系方式”等來進行搜索,如果網站程序未進行安全設置,其網站包含聯系方式的網頁均可瀏覽。
(3)訪問不了網頁!在搜索出來的“詳細個人信息”中隨便選擇一條,單擊其鏈接,結果顯示為“該網頁無法訪問”或者“無法顯示網頁”(圖4),出現這種情況可能是網站管理人員將該網頁刪除掉了,還有可能就是將網頁改名了。

圖4 訪問不了網頁
(4)搜索引擎的網頁快照來幫忙。利用百度搜索時其記錄中往往會有“百度快照”,而在Google中會有“網頁快照”四個灰色的字體,在本例中使用百度快照,單擊同條記錄的“百度快照”,結果出來了(圖5)。

圖 5 網頁快照
(5)直接顯示個人隱私信息。本例中以“詳細個人信息 喻鳳”為例,通過搜索引擎搜索出來的網頁以及網頁快照都不能訪問,但是搜索引擎還是將個人信息抓取出來了(圖6):喻鳳身份證證件號碼: 362229198309142028.電子郵件:fengyu419914@126.com.

圖 6 直接顯示個人信息
注意:現在國家在推行網絡實名制,實名制在使用過程中確實能夠解決不少問題,但是一旦這些信息泄漏出去,且被不法分子利用,其后果不堪設想。
(二)刪除網頁快照
通俗的說,網頁快照就是搜索引擎在收錄網頁時,都會做一個備份,大多是文本的,保存了這個網頁的主要文字內容,這樣當這個網頁被刪除或連接失效時,用戶可以使用網頁快照來查看這個網頁的主要內容,由于這個快照以文本內容為主,所以會加快訪問速度。在網站信息泄漏中,一個最大的安全隱患就是搜索引擎抓取的網頁快照。一般情況下,搜索引擎都不會自動刪除網頁快照,只要其被搜索引擎收錄,其信息就能訪問。因此要解決網站信息泄漏問題,其中一個關鍵的問題就是要刪除網頁快照。
1.刪除百度搜索引擎中的網頁快照
(1)網絡上無現存解決方法。
我首先在網上搜索“刪除網頁快照”、“百度”“百度快照”等關鍵字,結果出來居多“刪除網頁快照”的提問,我一個個的仔細進行了查看,居然沒有解決方法。
(2)跟百度聯系。
實在沒有辦法,我只好到百度的老巢去看看,通過“關于百度”網頁找到了百度的一些聯系方式(圖7),給Webmaster@baidu.com發了一封求助刪除網頁快照的郵件,二三天后,管理員給我回信了,告訴我已經刪除掉,要一周以后才能生效。

圖7 百度聯系方式
一周以后我再次進行搜索,結果發現其網頁快照還是存在,于是我再次給百度網站管理員發了一份求助郵件,二三天后再次收到回復郵件(圖8),其中提到了“百度搜索幫助”,通過其地址找到了網頁(圖9)(非常奇怪,在百度網站中居然無法正常看到關于解決該問題的鏈接:[url]http://www.baidu.com/search/faq_page.html#02[/url],百度是否不愿意刪除網頁快照,還是另有原因!!!)。
說明:直接跟百度聯系是一種較好的辦法,也可以通過百度自己提供的百度對話平臺進行溝通,呵呵,上面說還有獎品,不過我沒有試過,其訪問地址為:
[url]http://utility.baidu.com/quality/quality_form.php?word=%2E[/url]

圖 8 郵件回復

圖9百度幫助
(3)刪除程序文件否則更改鏈接。
通過研究幫助文件,發現最為快捷和方便的方法是更改網站泄漏文件的名稱或者直接刪除信息泄漏文件或者更改鏈接地址。不過該方法需要一個月左右才會生效。
2.刪除Google搜索引擎中的網頁快照。
(1)使用Google幫助文件
刪除Google搜索引擎中的網頁快照相對就容易多了,而且在Google的幫助文件中有關于如何刪除網頁快照的具體方法。具體進入方式為:Google首頁->“Google大全”->“搜索幫助”,其中有很多關于刪除網頁快照的解決方法,詳細地址為:
https://www.google.com/support/bin/answer.py?answer=61808&hl=zh_CN
說明:個人覺得老外就是比較嚴謹,會注意很多細節,不像國人,很多都是表面工程,不辦實際事情。
(2)使用Google網站管理員工具
Google提供的網站管理員工具使用起來非常方便,不過使用它來管理需要兩個前置條件:首先需要擁有Google帳號或者Gmail帳號,其次需要在需要刪除網頁快照的網站首頁的Html代碼中的第一個head處添加Google的驗證標識。驗證成功后即可進行網站網頁快照的管理(圖10)。網站管理員工具中還可以對rotbots文件、網站地圖、網站鏈接等進行管理。

圖10 Google網站管理員工具
說明:Google網站管理員工具可以有選擇的從 Google 搜索結果中刪除內容,刪除在 6 個月內有效。可以刪除以下內容:
l 單個網址:網頁、圖片或其他文件,刪除過期或被攔截的網頁、圖片和其他文檔,使其不再出現在 Google 搜索結果中。
l 網站上的目錄及所有子目錄,刪除網站上指定目錄內的所有文件和子目錄,使其不再出現在 Google 搜索結果中。
l 整個網站,從 Google 搜索結果中刪除網站。
l Google 搜索結果的緩存復本,對已經過期或您已添加無存檔元標記的網頁,刪除其緩存復本和網頁說明。
總之在Google管理員工具中最為方便的就是管理員可以自由選擇刪除網站內容,可以刪除整個網站,可以是網站鏈接,可以是文字等等(圖11),可以依據其相應的提示進行操作,非常方便。

圖11 刪除快照
網站管理員工具地址:
[url]https://www.google.com/accounts/ServiceLogin?service=sitemaps&continue=https://www.google.com%2Fwebmasters%2Ftools%2Fsiteoverview%3Fhl%3Dzh_CN%3Fhl%3Dzh_CN&nui=1&hl=zh-CN[/url]
3.編寫自己的robots.txt
robots.txt是一個純文本文件,在這個文件中網站管理者可以聲明該網站中不想被robots訪問的部分,或者指定搜索引擎只收錄指定的內容。當一個搜索機器人(有的叫搜索蜘蛛)訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,那么搜索機器人就沿著鏈接抓取。另外,robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。Robots.txt編寫很簡單,網上有很多關于這方面的資料,我就不贅述了。只列舉幾個常用的例子供大家使用。
(1)禁止所有搜索引擎訪問網站的任何部分。
User-agent: *
Disallow: /
(2)只允許訪問searchhistory目錄
User-agent: *
Allow: /searchhistory/
Disallow: /
(3)禁止所有搜索引擎訪問網站的01、02、03目錄
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/ www.2cto.com
(4)禁止BadBot搜索引擎的訪問
User-agent: BadBot
Disallow: /
(5)只允Crawler搜索引擎的訪問
User-agent: Crawler
Disallow:
User-agent: *
Disallow: /
說明:本人在自己的網站上面加上robots后,Google網頁快照就消失了。
(三)網站信息泄漏堵漏
1.加強程序安全
在程序早期,很多程序員都沒有考慮到搜索引擎會自動抓取網站中的網頁,因此對于安全方面沒有做訪問限制,一個好的方法就是對網頁進行授權訪問,例如只有登陸以后的用戶可以訪問某一些網絡資源,而對于普通用戶則禁止訪問。以asp編程語言為例,可以新建一個checklogin.asp的網頁文件,然后在其中輸入:
<%
if Session("MySystem_LoginUser")="" then
response.redirect " Login.asp"
end if
%>
在網站需要進行限制訪問的網頁程序中包含該網頁即可。
說明:本例只是提出一種簡單實現方法,其實限制訪問網絡資源有很多好方法,當然程序中也得考慮其他安全,例如SQL注入漏洞問題。
2.及時跟Google、百度等搜索引擎聯系,刪除存在泄漏的網站信息
3.涉及個人隱私信息的內容和網頁時,一定要對安全多加考慮。
(四)結束語
本文對網站信息泄漏,主要是個人信息問題進行了探討,并就泄漏中的網頁快照刪除問題給出了一些解決方法。網絡的安全問題從來都是相對的,沒有絕對的安全,安全重在安全思想意識,歡迎跟大家一起進行網路安全方面的探討。