數據時代來臨 人工智能如何驅動存儲發展
近年來,數字化轉型成為企業業務升級必備手段,其實,“數字化轉型”概念提出的十年之期,隨著5G、大數據、云計算、人工智能、物聯網等核心技術已在各行各業開花結果,邊緣計算?、機器學習、數字孿生等更新的技術層出不窮,重塑商業模式,顛覆生活體驗,加速萬物智能。追本溯源,一切變革源于數據亦由數據推動。
日前,IDC的一項報告顯示:2021年全球大數據市場的IT總投資規模為2176.1億美元,到2026年,這項數據將增至4491.1億美元,五年預測期內(2021-2026)實現約15.6%的復合增長率。
大數據市場的高速成長,客觀地反映出企業用戶對于數據關注點的進步:他們正在從以往的數據收集、存儲與管理,轉向對于數據的分析和價值的發掘,從而實現讓數據真正發揮價值,用虛擬的數字來優化真實現實的目的,最終完成其“數字”應用的完整流程。
萬物智能時代新趨勢
數字化轉型進入2.0時代,企業投入不斷增加,期待單點技術聚合成體系并發揮集成效應,進一步增加利潤、激發創新、提高員工生產力,提高運營效率并改善客戶體驗。
盡管AI時刻在推動存儲發展,但是想要進一步激活存儲潛力,仍需要解決AI場景下,存儲容易面臨的挑戰:
海量小文件,由于訓練任務需要的文件數量都在幾億到十幾億的量級,所以存儲需要能承載幾十億甚至上百億的文件數量。同時,由于很多訓練模型都是依賴于圖片、音頻片段、視頻片段文件,而這些文件基本上都是在幾KB到幾MB之間。
讀多寫少,在大部分場景中,訓練任務只讀取文件,中間很少產生中間數據,即使產生了少量的中間數據,也是會選擇寫在本地,很少選擇寫回存儲集群。
目錄熱點,由于訓練時,業務部門的數據組織方式不可控,很有可能用戶會將大量文件存放在同一個目錄,容易導致多個計算節點在訓練過程中,會同時讀取這一批數據,這個目錄所在的元數據節點就會成為熱點。
“工欲善其事,必先利其器”,要想發揮出?AI?人工智能技術的最大威力,解決存儲挑戰就成為企業構建強有力的?IT?基礎設施的重要一環。如果沒有高性能的存儲,就會導致整個系統性能出現延遲的情況。
因此?AI?對存儲性能的要求是很苛刻的,企業希望存儲系統能滿足高吞吐量和低延時的需求,讓更多的數據能更及時地傳輸和執行,那么對于這個愿望應該如何實現呢?
AI驅動存儲發展
眾所周知,大數據、AI、ML等概念都不是最近出現的,只是當時在數字時代,算力的局限不僅限制了數據的產生,也限制了AI和ML真正價值的發揮。直到云計算讓算力不再具有任何上限,用戶對于數據的獲取也開始變得更加廣泛,AI和ML才真正成為了最有效的數據分析工具。
在企業為AI平臺選擇存儲設備之前,必須首先考慮以下幾點:
1. 成本
AI數據存儲設備的價格對企業來說是一個關鍵因素。顯然,高管層和那些參與采購決策的人會希望存儲盡可能具有成本效益,在許多情況下,這將影響組織的產品選擇和策略。
2. 可伸縮性
如上文所說,在創建機器學習或AI模型的過程中,收集、存儲和處理大量數據是非常必要的。機器學習算法要求源數據呈指數增長,才能實現精度的線性提高。創建可靠而準確的機器學習模型可能需要數百TB甚至PB的數據,而且這只會隨著時間的推移而增加。
存儲成本的變化引入了分層存儲或使用多種類型的存儲來存儲數據的概念。例如,對象存儲是存儲大量不活躍的AI數據的良好目標。當需要處理數據時,可以將數據移動到對象存儲中的高性能文件存儲集群或節點上,一旦處理完成,就可以將數據移動回來。
3. 性能
AI數據的存儲性能有三個方面。首先,可能也是最重要的是延遲,也就是軟件處理每個I/O請求的速度。低延遲很重要,因為改善延遲對創建機器學習或AI模型所需的時間有直接影響。復雜的模型開發可能需要數周或數月的時間。通過縮短這個開發周期,組織可以更快地創建和細化模型。在檢查延遲能力時,由于對象訪問的流特性,對象將引用時間存儲為第一個字節,而不是單個I/O請求的延遲。
機器學習數據可以由大量的小文件組成。在這個領域,文件服務器可以提供比對象存儲更好的性能。這里需要問AI存儲方案供應商的一個關鍵問題是,在大文件類型和小文件類型上,他們的產品的性能特征會如何變化。
4. 可用性和耐久性
機器學習和AI模型可以長時間連續運行。通過訓練開發算法可能需要幾天或幾周的時間。在此期間,存儲系統必須保持啟動并持續可用。這意味著任何升級、技術替換或系統擴展都需要在不停機的情況下進行。
在大型系統中,組件故障是常見的。這意味著任何用于AI工作的平臺都應該能夠從設備(如硬盤或SSD)和節點或服務器故障中恢復。對象存儲使用擦除編碼在許多節點上廣泛分布數據,并最小化組件故障的影響。有一些擦除編碼技術可以用在橫向擴展文件系統,以提供同等水平的彈性。擦除編碼方案的效率非常重要,因為它直接關系到讀寫I/O的性能,特別是對于小文件而言。
由于多數大規模對象存儲都太大,無法定期備份,因此可靠地擦除編碼成為AI存儲平臺的一個基本特性。
5. 公有云
開發機器學習和AI算法需要高性能存儲和高性能計算。許多AI系統都是基于GPU的,比如Nvidia?DGX,它可以用于開發精確算法所涉及的許多復雜數學計算。
公有云服務提供商已經開始提供GPU加速的虛擬實例,可用于機器學習。在公有云中運行機器學習工具降低了構建機器學習開發基礎設施的資本成本,同時提供了擴展開發機器學習模型所需的基礎設施的能力。
6. 集成
在本文中,我們將機器學習和AI的數據存儲與計算分開來看。構建AI數據存儲可能很困難,因為必須考慮存儲網絡和調優存儲以及與機器學習應用程序協同工作的其他因素。
產品的預打包使供應商能夠在將產品交付給客戶之前測試和優化其產品。如今,有一些存儲產品結合了流行的AI軟件、計算(如通用CPU和GPU)、網絡和存儲,以交付一個AI就緒的平臺,許多詳細的調優工作是在部署這些系統之前完成的。盡管成本可能是個問題,但對許多客戶來說,預先打包的系統可以降低采用AI存儲的障礙。
寫在最后
當前,AI的發展正在加速推動技術設施的進步,數據類型和數據存儲需求也在產生變化,或許很難預測未來的存儲技術究竟是怎么樣的,但是我們可以肯定的是,未來AI將持續驅動存儲發展。
隨著科技的進步,AI作為新一輪產業變革的核心驅動力,將催生新技術、新產品、新產業、新業態、新模式,實現社會生產力的整體提升。