根治Kubernetes“存儲頭痛癥”的方法
如果您已經在使用Kubernetes了,則可能有一個簡單的原因:它使您的生活更輕松。畢竟,這是基于容器編排的整個前提。它讓基礎設施變得可支配,在需要時將其旋轉,完成后將其丟棄,因此您不必考慮太多。至少,這就是應該起作用的方式。

如你所知,如果你已經建立起一個依賴于持久性數據的工作,你會馬上遇到一個大問題——存儲。
盡管Kubernetes完全抽象了計算和網絡基礎架構,但是當您的應用程序是有狀態的并且數據是持久的時,它需要合適的方式進行存儲。您仍必須了解底層存儲基礎架構的全部知識,才能找到所需數據的方式。
不僅是數據的位置,還有其他類型的存儲基礎結構附帶的所有其他細粒度的考慮因素(性能,保護,彈性,數據治理和成本),大多數數據科學家都不想考慮。
為什么在云原生世界中,我們已經自動化了對這么多底層硬件復雜性的管理,所以存儲仍然如此痛苦?原因是兩個詞:數據孤島。
只要我們繼續通過其賴以生存的不同基礎架構來管理數據,而不是只關注數據本身,我們將不可避免地最終要花費大量的存儲孤島。幸運的是,這不是一個棘手的問題。通過將我們對數據管理的思考方式從以基礎架構為中心的方法轉變為以數據為中心的方法,我們可以使用Kubernetes首先給我們提供承諾:制作存儲SEP(Someone Else‘s Problem)。
當您需要的數據散布在不同的存儲孤島上時,每個存儲孤島都有自己的獨特屬性(“或”或“云”,“本地”,“對象”,“高性能”等),根本無法抽象出基礎架構注意事項。仍然有人必須回答所有有關性能,成本和數據治理的問題,才能建立您的管道。(如果該人是您要尋求幫助的IT管理員,您可以打賭他們每次在您的名字上出現您的名字時都會畏縮。因為他們知道他們將花費大量時間在神秘的基礎結構接口上來破壞您的數據跨所有不同的副本和數據存儲,而且他們根本無法在午餐前完成任務。
擺脫這種頭痛的唯一方法-真正實現Kubernetes應該為您提供的速度和簡便性的唯一方法-是虛擬化數據。基本上,您需要在數據和所有各種存儲基礎架構之間建立一個智能抽象層。該抽象層應該使您可以在任何地方查看和訪問數據,而不必擔心給定的基礎架構是否具有適合您正在執行的操作的成本,位置或治理,也不必不斷創建新副本。
做到這一點并不像聽起來那么困難。關鍵:元數據。當您可以將所有數據需求,上下文或沿襲注意事項編碼為隨處可見數據的元數據時,那么在任何給定時刻駐留在哪個基礎結構數據上就不再重要。現在,當您建立數據管道時,您可以完全使用元數據。而且您的虛擬化層可以使用AI / ML為您自動處理所有基礎數據管理和基礎結構注意事項。
一旦建立了虛擬化層,并通過元數據進行數據管理,就可以執行以前無法完成的各種事情。
1. 消除數據孤島:現在,您需要的數據位于哪個基礎架構上或該基礎架構位于什么位置都無所謂。對于您的應用程序,所有那些以前孤立的存儲資源(本地,云,混合,歸檔)看起來就像一個通用的全局名稱空間。
2. 以編程方式訪問存儲資源:由于您在處理元數據(而不是一堆不同的底層硬件基礎結構),因此您現在可以設置管道并通過聲明性語句訪問數據:我需要具有這種性能的數據,僅此而已真的很在乎。然后,智能虛擬化層就可以實現并實現,而您的應用程序(或您負擔過重的IT管理員)則無需確切說明操作方法。
3. 使數據管理實現自助服務:數據科學家無需擔心比較不同存儲類型的成本,啟用數據保護或確保每次建立管道時都滿足安全性和合規性要求。(因此,您的IT和安全團隊可能也不希望數據科學家做出這些選擇-除非他們希望所有內容都在最昂貴的存儲上運行且沒有適當的遵從性。)一旦將元數據和數據的管理分開,所有消失了。存儲管理員可以通過配置一次基本策略來設置防護欄。然后,用戶可以從此開始自助滿足其大多數數據管理需求,而無需打開票證,并且不會在每次建立管道時手動進行這些調用時出現錯誤。
4. 不斷豐富您的數據:當系統支持可自定義的,可擴展的元數據時,您現在可以進行各種有趣的事情。例如,您可以構建遞歸流程,在其中通過系統運行數據,獲取一些結果,將這些結果添加回元數據,然后再次運行作業。您可以開始對數據周圍的數據建立深入的上下文理解。處理和使用的數據越多,將來用于其他作業的數據就越豐富。而且,對于要使用它的任何其他應用程序或數據科學家來說,現在,智能總是隨處可見。它并不局限于一個副本,而是藏在某個地方的一個存儲孤島上。
當您虛擬化數據時,所有這些事情都是可能的,因為與孤立的存儲基礎架構相比,元數據的使用更加靈活。設置和編排數據管道所伴隨的存儲注意事項現在可以為您解決。您的存儲資源將變為可編程的,自助服務的并且自動合規,通常不需要手動干預。
突然之間,您實際上生活在這樣一個現實,即Kubernetes和軟件定義的存儲始終應該交付。無論基礎架構如何,存儲都是軟件定義的,可編程的并且在混合云環境中保持一致。您的數據更豐富,更靈活。您的IT團隊不再將ID卡上的爆炸照片留在墻上扔鏢。最重要的是,您實際上在處理數據上花費了更多時間,而不用擔心數據的存放位置。