對象存儲適合人工智能和機器學(xué)習(xí)的三個原因
如今,各種類型的企業(yè)都致力于采用人工智能和機器學(xué)習(xí)項目,但要發(fā)揮其真正的潛力,則需要克服重大的技術(shù)障礙。雖然計算基礎(chǔ)設(shè)施通常是重點,但存儲設(shè)施也同樣重要。以下是對象存儲(而不是文件或塊存儲)適用在加強人工智能和機器學(xué)習(xí)工作負(fù)載的三個主要原因:
1.可擴展性
當(dāng)有大量不同的數(shù)據(jù)源可供學(xué)習(xí)時,采用人工智能和機器學(xué)習(xí)技術(shù)最有效。數(shù)據(jù)科學(xué)家利用這些豐富的數(shù)據(jù)來訓(xùn)練領(lǐng)域模型。在“大數(shù)據(jù)的五個V”(數(shù)量、類型、速度、準(zhǔn)確性和價值)中,前兩個(數(shù)量和類型)最為重要。簡而言之,人工智能和機器學(xué)習(xí)依賴于大量不同的數(shù)據(jù)(圖像、文本、結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù))來構(gòu)建有用的模型,提供準(zhǔn)確的結(jié)果,并最終提供業(yè)務(wù)價值。
對象存儲是很具擴展性的存儲架構(gòu),特別適合支持人工智能和機器學(xué)習(xí)所需的大量數(shù)據(jù)。對象存儲旨在通過水平擴展方法實現(xiàn)無限增長,從而使企業(yè)可以通過在需要的位置和時間添加節(jié)點來增加部署。由于對象存儲使用單個全局名稱空間,因此也可以一次在多個地理位置上進(jìn)行這種擴展。另一方面,文件和塊系統(tǒng)通常采用擴展方法。這意味著這些平臺通過向單個節(jié)點添加更多計算資源來實現(xiàn)垂直擴展,這最終會受到限制。他們無法通過部署其他節(jié)點來增加計算資源,從而無法有效地水平擴展。
2. API
健壯靈活的數(shù)據(jù)API對于人工智能和機器學(xué)習(xí)非常重要,如上所述,它們使用了多種數(shù)據(jù)類型。存儲平臺需要支持API來容納各種數(shù)據(jù)。此外,人工智能和機器學(xué)習(xí)的創(chuàng)新越來越多地在公共云上進(jìn)行,但是仍然有相當(dāng)一部分人工智能和機器學(xué)習(xí)在內(nèi)部部署數(shù)據(jù)中心或私有云中發(fā)生,這取決于用例的具體情況(例如,科學(xué)研究和醫(yī)療保健等領(lǐng)域通常最適合私有云)。這意味著組織需要一個存儲API,以支持公共云和本地/私有云中的工作負(fù)載。
文件和塊存儲平臺所支持的API受限制,部分原因是它們是較舊的架構(gòu)。相比之下,對象存儲使用云平臺中固有的高級API,該API設(shè)計為以應(yīng)用程序為中心,與文件和塊存儲相比,它支持范圍更廣的API,其中包括版本控制、生命周期管理、加密、對象鎖定和元數(shù)據(jù)。此外,支持人工智能和機器學(xué)習(xí)用例的新對象存儲API(例如對流數(shù)據(jù)的支持和對海量數(shù)據(jù)集的查詢的支持)也是可能的。
通過圍繞Amazon S3的對象存儲API的標(biāo)準(zhǔn)化,可以更輕松地在內(nèi)部部署和公共云中集成軟件。企業(yè)可以輕松地將人工智能和機器學(xué)習(xí)部署從內(nèi)部部署/私有云環(huán)境擴展到公共云,或者將云原生的人工智能和機器學(xué)習(xí)工作負(fù)載遷移到內(nèi)部部署環(huán)境,而不會損失功能。這種雙模式方法使組織可以合作且可互換地利用內(nèi)部部署/私有云和公共云資源。
由于S3 API已成為對象存儲的事實上的標(biāo)準(zhǔn),因此許多軟件工具和庫都可以利用該API。這允許共享代碼、軟件和工具,以促進(jìn)人工智能和機器學(xué)習(xí)社區(qū)中更快的開發(fā)。示例包括流行的機器學(xué)習(xí)平臺,例如具有內(nèi)置S3 API的TensorFlow和Apache Spark。
3.元數(shù)據(jù)
與API一樣,使用人工智能和機器學(xué)習(xí)的組織必須利用無限的可自定義的元數(shù)據(jù),這一點至關(guān)重要。元數(shù)據(jù)只是關(guān)于數(shù)據(jù)的數(shù)據(jù),在最基本的層面上,是在何時何地創(chuàng)建的數(shù)據(jù),以及是誰創(chuàng)建的數(shù)據(jù)。但是元數(shù)據(jù)可以描述更多內(nèi)容:用戶可以創(chuàng)建任意的元數(shù)據(jù)標(biāo)記來描述他們想要的任何屬性。
數(shù)據(jù)科學(xué)家需要豐富的元數(shù)據(jù)來查找特定數(shù)據(jù)以構(gòu)建和使用其人工智能和機器學(xué)習(xí)模型。隨著更多信息添加到數(shù)據(jù)中,元數(shù)據(jù)注釋可逐步積累知識。
文件和塊存儲僅支持有限的元數(shù)據(jù),例如上述基本屬性。這在很大程度上可以歸結(jié)為可擴展性,因為文件和塊系統(tǒng)未配備快速無縫的增長功能,如果存儲系統(tǒng)支持依賴大量數(shù)據(jù)集的人工智能和機器學(xué)習(xí)應(yīng)用程序的豐富元數(shù)據(jù),則自然會發(fā)生這種情況。但是,對象存儲支持無限的、完全可自定義的元數(shù)據(jù),從而使查找用于人工智能和機器學(xué)習(xí)算法的數(shù)據(jù)更加容易,并從中獲得更好的見解。
以一家醫(yī)院在X光圖像上使用圖像識別應(yīng)用程序為例:使用元數(shù)據(jù),可以使用TensorFlow模型分析添加到對象存儲系統(tǒng)中的每個圖像,然后為每個圖像分配更加精細(xì)的元數(shù)據(jù)標(biāo)簽(例如,損傷類型、基于骨骼大小或生長的患者年齡或性別等)。TensorFlow模型可以在元數(shù)據(jù)上進(jìn)行訓(xùn)練,并對其進(jìn)行分析,得出新的患者見解(例如與五年前相比,如今20歲到30歲的婦女患上的骨科疾病更多)。
幾乎每一家財富500強公司都在考慮采用人工智能和機器學(xué)習(xí),可以想象這些技術(shù)將在可預(yù)見的將來成為最重要的企業(yè)IT計劃。然而,要使人工智能和機器學(xué)習(xí)計劃獲得回報,企業(yè)必須利用正確的存儲基礎(chǔ)設(shè)施。對象存儲由于其可擴展性、對各種API(特別是S3)的支持以及豐富的元數(shù)據(jù),是人工智能和機器學(xué)習(xí)的優(yōu)秀支柱。