大數據項目可能出錯的五種方式
?大數據項目的低成功率是過去10年中一個持續存在的問題,與之類似的是:人工智能項目中也出現了相同類型的問題。雖然100%的成功率不是一個可以實現的目標,但用戶可以進行一些調整以從數據投資中獲得更多收益。
隨著世界產生更多數據,它也越來越依賴數據,不接受數據驅動決策的公司可能會進一步落后。幸運的是,數據收集、存儲、管理和分析的復雜性在過去10年中大幅提高,研究表明,擁有最先進數據能力的公司比同行產生更高的收入。
同樣,某些數據故障模式會一遍又一遍地重復。以下是影響大數據項目的五個常見陷阱,以及一些使您的大數據項目保持正常運行的潛在解決方案。
將其全部放入數據湖中
谷歌云數據庫、數據分析副總裁兼總經理GerritKazmaier引用的一項研究顯示,超過三分之二的公司表示,他們沒有從數據投資中獲得“持久價值”。
“這非常有趣,”Kazmaier在上個月的新聞發布會上說。“每個人都認識到他們將與數據競爭……而另一方面,我們認識到只有少數公司在數據方面真正取得了成功。所以問題是:到底是什么阻礙了這些公司進行數據轉型?”
一個重要原因是缺乏數據集中化,這抑制了公司從數據中獲取價值的能力。大多數任何規模的公司的數據都分布在大量孤島——數據庫、文件系統、應用程序和其他位置。公司通過將盡可能多的數據放入數據湖中來應對這種數據困境,例如Hadoop或(最近)在云中運行的對象系統。除了提供數據駐留的中心位置之外,它還降低了與存儲PB級數據相關的成本。
然而,Kazmaier說,雖然它解決了一個問題,但數據湖本身也引入了一系列全新的問題,特別是在確保數據的一致性、純度和可管理性方面。“所有這些組織都試圖在數據湖之上進行創新,但最終發現它只是一個數據沼澤,”他說。
GoogleCloud針對這一困境的最新解決方案是Lakehouse架構,這個架構將數據湖方法的開放性與數據倉庫的可管理性、治理和質量相結合。
公司可以將他們的數據保存在GoogleCloud存儲中,這是一個與S3兼容的對象存儲系統,支持Parquet和Iceberg等開放數據格式,以及Presto、Trino和BigQuery等查詢引擎,但不會犧牲數據倉庫的治理。
沒有集中查看數據
在過去的幾十年里,許多公司一直在努力將數據集中在數據湖中,但是與此同時,數據孤島還是一樣存在,而目標則變成了消除用戶訪問數據的障礙。
在CapitalOne,大數據的目標是使用戶訪問民主化,作為數據生態系統整體現代化的一部分。“這實際上更多的是讓我們所有的用戶都可以使用數據,無論他們是分析師,他們是工程師,還是機器學習數據科學家等,以釋放他們可以用數據做的潛力,”CapitalOne企業數據平臺和風險管理技術高級副總裁BibaHelou表示。
CapitalOne數據民主化工作的一個關鍵要素是一個集中的數據目錄,它提供了各種數據資產的視圖,同時跟蹤訪問權限和治理。
“它確保我們是以一種管理良好的方式來做這件事的,但要確保人們有能力看到外面的東西,并獲得他們需要的東西,以便能夠創新性地為我們的客戶提供產品,”Helou在最近的一次采訪中強調。
該公司決定建立自己的數據目錄。原因之一是目錄還允許用戶創建數據管道。“所以它是一個目錄,另?外。它與我們所有的其他系統緊密相連,”她說。“相比獲得大量第三方產品并自己將它們串起來,我們發現為自己構建集成解決方案要容易得多。”
變得太大、太快
在Hadoop時代的鼎盛期,許多公司斥巨資來構建大型集群來為其數據湖提供動力。由于使用了標準X86處理器和硬盤,這些本地系統中的許多都比它們所取代的數據倉庫大大降低了成本(至少在每TB的基礎上是這樣)。然而這些大型系統帶來了額外的復雜性,從而推高了成本。
現在我們已經處于云時代,我們可以回顧這些投資,看看我們在哪些方面出了問題。去年加入Snowflake擔任首席數據策略師的前Forrester分析師Jennifer Belissent表示,由于基于云的數據倉庫和數據湖產品的可用性,客戶可以從小額投資開始并從那里升級。
“我認為這是我們面臨的挑戰之一,我們需要預先進行大量投資,”Belissent說。“如果你正在部署云基礎設施,那么可以從填充數據湖或數據倉庫的單個項目開始,以交付結果為起點,然后逐步添加更多用例、添加更多數據、添加更多結果。”
Belissent說,與其在一個冒險的大數據項目中一蹴而就,客戶最好從一個成功可能性更高的較小項目開始,然后隨著時間的推移在此基礎上再接再厲。
“從歷史上看,整個行業在談論大數據并期望人們接受大數據時,根據定義[這意味著這是一個大型基礎設施]這讓人們倒退了,”她說。“而如果你想從小處著手,逐步構建,并利用云基礎設施,這更容易使用,而且你不必有前期資本支出來將其部署到位,那么你就能夠展示結果,你也許正在消除我們在前幾代人中看到的一些幻滅感。”
Belissent指出,Gartner最近開始強調“小而寬數據”的優勢。在談到人工智能項目時,AndrewNg一直在演講中提出這一點。
“這不僅關乎大數據,還關乎調整數據規模,”Belissent在上周接受采訪時表示。“它不必很大。我們可以從小處著手并擴大規模,或者我們可以使數據源多樣化并擴大范圍,這使我們能夠豐富我們擁有的有關客戶的數據,并更好地了解他們的需求和想要的東西,并更加了解相關情況我們為他們服務的方式。”
?即使大數據項目不是很大,用戶仍然應該考慮未來擴展的可能性。
沒有為大增長提前計劃
大數據中反復出現的主題之一是用戶將如何接受新解決方案的不可預測性。你有多少次讀到一些大數據項目被認為是肯定的賭注,結果卻是巨大的失敗?同時,許多對成功期望不大的副項目最終成為了巨大的贏家。
從大數據開始,并在成功的基礎上再接再厲,通常是明智的。但是,在選擇您的大數據架構時,您要小心,不要因為選擇會成為縮減生產線的障礙的技術而束縛自己。
NoSQL數據庫公司Aerospike的首席戰略官LenleyHensarling表示:“無論是服務和基礎設施業務、人工智能還是其他業務——如果成功,它的擴張速度將非常快。”“它會變得很大。您將使用大數據集。就正在進行的操作數量而言,您將擁有超高的吞吐量。”
Aerospike的人稱其為“理想規模”,這是一種在互聯網公司中普遍存在的現象。由于云消除了對硬件投資的需求,公司可以將計算能力提高到n級。
但是,除非您的數據庫或文件系統也可以擴展和處理吞吐量,否則您將無法利用公共云上的性能。雖然現代NoSQL數據庫很容易適應不斷變化的業務,但它們可以提供的功能有限。數據庫遷移絕非易事。
大數據中有很多已知的故障模式——毫無疑問也有一些未知的。熟悉常見的很重要。但也許最重要的是,很高興知道失敗不僅是意料之中的,而且應該作為過程的一部分受到歡迎。
不適應失敗
在使用大數據洞察力修改業務戰略時,可能會突然出現未知因素,從而導致實驗失敗,甚至意外成功。在這個令人擔憂的過程中保持理智是長期成功與短期大數據失敗之間的關鍵區別。
數據目錄公司Alation的首席執行官兼聯合創始人SatyenSangani表示,科學本質上是一種推測性的東西,你應該接受這一點。“我們假設,有時假設是正確的,有時它們是錯誤的,”他說。“有時我們會進行實驗,有時我們可以預測它,有時我們不能。”
Sangani鼓勵公司擁有“探索性思維”,并像風險投資家一樣思考。一方面,您可以通過在聘請新的銷售人員或擴大總部等方面進行保守的投資來獲得低但可靠的回報。或者,您可以采取更具投機性的方法,這種方法不太可能獲得回報,但可以以驚人的方式獲得回報。
Sangani說:“人們很難接受這種探索性的心態。”“如果你要投資于數據資產和人工智能投資組合,你可能不會為每一項單獨的投資獲得100%的投資回報,但其中一項投資可能是10倍的投資。”
歸根結底,公司在賭他們將從數據投資中獲得10倍回報之一。當然,獲得數據黃金的機會需要做很多正確的小事。有很多事情可能會出錯,但是通過反復試驗,您可以了解哪些有效,哪些無效。并且希望當您實現10倍的?回報時,您將與我們其他人分享這些經驗。