AWS S3中歸檔數(shù)據(jù)四要點(diǎn)
對(duì)于存儲(chǔ)歸檔任務(wù)來說,AWS的簡(jiǎn)單存儲(chǔ)服務(wù)(S3)是一個(gè)較具成本效益的選擇。把歸檔移至云計(jì)算可讓企業(yè)用戶減少內(nèi)部部署硬件,例如網(wǎng)絡(luò)附屬存儲(chǔ)(NAS)的文件存儲(chǔ)。當(dāng)你在一個(gè)歸檔中進(jìn)行文件搜索時(shí),為了降低存儲(chǔ)介質(zhì)故障或其他問題所帶來的風(fēng)險(xiǎn),你可能會(huì)使用冗余副本,而使用AWS的S3還可以有助于節(jié)省冗余副本的數(shù)量。
如果需要實(shí)現(xiàn)AWS S3優(yōu)勢(shì)的***化,適當(dāng)?shù)囊?guī)劃是至關(guān)重要的。當(dāng)把歸檔遷移至S3時(shí)以及在云計(jì)算中長(zhǎng)期管理它們時(shí),有幾點(diǎn)是需要謹(jǐn)記于心的。
為你的歸檔設(shè)計(jì)一個(gè)組織架構(gòu)
有些企業(yè)可能希望通過操作功能和日期來組織歸檔內(nèi)容;而另一些企業(yè)則發(fā)現(xiàn)按照組織層次結(jié)構(gòu)是更為簡(jiǎn)單的。無論哪種方法適合你的企業(yè),你都需要考慮你應(yīng)如何為歸檔任務(wù)實(shí)施扣費(fèi)。例如,如果你計(jì)劃向你企業(yè)的各個(gè)部門為他們所使用的歸檔開出帳單,那么你將需要一個(gè)能夠讓你輕松生成帳單報(bào)告的結(jié)構(gòu)。
Bucket是AWS S3的存儲(chǔ)邏輯單位。每個(gè)Bucket可以有最多10個(gè)標(biāo)簽,例如名稱值對(duì),“部門:財(cái)務(wù)。”在生成帳單報(bào)告過程中,這些標(biāo)簽是比較有用的,但是在所有的存儲(chǔ)區(qū)域中使用始終一致的一組標(biāo)簽也是非常重要的。
AWS正在計(jì)劃要求所有的Bucket名稱遵循DNS命名約定。Bucket名稱應(yīng)當(dāng)是3至63個(gè)字符,并用句號(hào)分隔標(biāo)簽。這里,應(yīng)使用一個(gè)分層式命名約定。Bucket名稱應(yīng)當(dāng)是這樣的,例如:archive.finance.audit 和 archive.finance.accountspayable。
每一個(gè)AWS帳號(hào)一次可以擁有100Bucket。如果單一一個(gè)賬戶能夠管理所有的歸檔,那么應(yīng)制定相應(yīng)的計(jì)劃。而對(duì)于在一個(gè)Bucket中存儲(chǔ)對(duì)象的數(shù)量是沒有限制的。在若干Bucket或多個(gè)Bucket之間存儲(chǔ)對(duì)象是沒有性能損失的。亞馬遜S3在Bucket中支持文件夾,從而為使用多個(gè)bucket提供一個(gè)替代方案。但是,文件夾不支持成本分配標(biāo)簽。
為傳輸數(shù)據(jù)確定***方法
這取決于你要傳輸至S3的數(shù)據(jù)量,你可能需要考慮使用AWS導(dǎo)入/導(dǎo)出數(shù)據(jù)遷移服務(wù)。不同于傳統(tǒng)通過互聯(lián)網(wǎng)傳輸文件的方式,客戶需要把數(shù)據(jù)通過硬盤遞交給亞馬遜,并在亞馬遜的一個(gè)數(shù)據(jù)中心內(nèi)把數(shù)據(jù)載入S3。AWS在美國(guó)東部(北弗吉尼亞州)、美國(guó)西部(俄勒岡州)、美國(guó)西部(北加州)、歐美(愛爾蘭)以及亞太地區(qū)(新加坡)提供專項(xiàng)服務(wù)。
我們建議,使用導(dǎo)入/導(dǎo)出服務(wù)還是通過互聯(lián)網(wǎng)傳輸文件,這取決于網(wǎng)絡(luò)速度和你需傳輸?shù)臄?shù)據(jù)容量。如果你的網(wǎng)絡(luò)速度達(dá)到10Mbps且數(shù)據(jù)傳輸量在600GB以上,那么可考慮后者的方法。而當(dāng)網(wǎng)速達(dá)到100Mbps,傳輸數(shù)據(jù)量超過5TB時(shí),那么導(dǎo)入/導(dǎo)出服務(wù)則是可行的一種方法。AWS導(dǎo)入/導(dǎo)出計(jì)算器可幫助你估算對(duì)你的歸檔使用這項(xiàng)服務(wù)的成本。
驗(yàn)證、驗(yàn)證、再驗(yàn)證
不管你采用何種方法傳輸數(shù)據(jù),你將需要驗(yàn)證被傳輸?shù)臄?shù)據(jù)是被正確地寫入S3的。傳輸錯(cuò)誤可能會(huì)導(dǎo)致源文件和目標(biāo)文件之間的差異。大多數(shù)的Linux發(fā)行版本包括了用于計(jì)算文件哈希值的md5sum工具。用戶可以使用這個(gè)工具計(jì)算源文件和目標(biāo)文件的哈希值。如果兩個(gè)哈希值有差,那么就說明傳輸過程中出現(xiàn)了錯(cuò)誤,同時(shí)該文件應(yīng)被重新傳輸。由于這些文件一般都是具有一定價(jià)值的信息集合,所以驗(yàn)證在AWS S3中所存儲(chǔ)數(shù)據(jù)的完整性是非常重要的。
期待更便宜的替代產(chǎn)品
亞馬遜的Glacier是一個(gè)專門的文件歸檔服務(wù),其價(jià)格為0.01美分每GB每月,這樣的價(jià)格是S3目前價(jià)格的三分之一,具體主要決定于所存儲(chǔ)數(shù)據(jù)的容量。如果你不會(huì)需要執(zhí)行檢索操作或者會(huì)很快地就刪除這些文件,那么可考慮棄用AWS S3而使用Glacier。在Glacier中檢索數(shù)據(jù)可能需要花費(fèi)數(shù)小時(shí)之久,而亞馬遜會(huì)因?yàn)槟惆讶齻€(gè)月內(nèi)新載入的數(shù)據(jù)刪除而收費(fèi)。
實(shí)現(xiàn)AWS S3和Glacier優(yōu)勢(shì)的一個(gè)方法就是根據(jù)公司策略使用生命周期管理規(guī)則把文件遷移至Glacier。例如,一個(gè)已經(jīng)被保存在S3中六個(gè)月的歸檔文件。你可能不會(huì)訪問它;如果你確實(shí)需要訪問它,那么檢索這個(gè)文件需要花費(fèi)長(zhǎng)達(dá)數(shù)個(gè)小時(shí)并不會(huì)中斷業(yè)務(wù)運(yùn)營(yíng)。一個(gè)生命周期配置規(guī)則可以與S3 Bucket相關(guān),這樣在指定時(shí)間之后文件會(huì)被自動(dòng)傳輸至S3,從而降低整體存儲(chǔ)成本。
企業(yè)用戶可以針對(duì)歸檔任務(wù)使用AWS S3,但是***做好長(zhǎng)期規(guī)劃,這樣你就可以簡(jiǎn)化日常管理運(yùn)營(yíng),例如為個(gè)人用戶開賬單并在適當(dāng)?shù)那闆r下通過使用Glacier控制成本。