2020年將激發大數據和SQL 5大趨勢
分布式數據處理,協作式SQL和開源
SQL是當今工作場所最需要的技術技能之一。 該技術可以追溯到1970年代,至今仍是我們連接大多數數據系統的方式。 不管使用了什么拖放工具,還是試圖用新的查詢范式取代它,它仍然存在。
我們今天將要談論的許多現代數據庫技術一直都必須遵守SQL策略,而SQL需要進行更新。
但是,這并不是說SQL的環境在過去的幾十年中沒有發生太大變化,并且不會繼續發展。 這是SQL堅持這么多的原因之一。 它與時俱進。
本文將總結SQL和數據分析領域當前發生的一些主要趨勢。
我們將討論SQL如何變得更加協作和開放,我們這個世界上繼續運行的大多數數據庫如何是開源的或切換到開源的,以及提出一些您可能沒有聽說過的技術,但是 應該提防。
在技術領域中發生了如此多的事情之后,這將有助于清晰地了解SQL和數據領域中一些更重要的變化。
SQL不僅僅適合數據驅動公司中的數據工程師和分析師
如果您曾經在FAANG或甚至是Instacart之類的技術驅動型初創公司工作過,那么您可能已經意識到,數據驅動著一切-分析師,產品經理和產品經理開始不必要地理解SQL。
SQL是數據的語言,如果要與數據進行交互,則需要了解它。
您是否想輕松計算出用戶花在產品上的平均時間,但又不想等待分析師? 您最好弄清楚如何運行查詢。
不再需要安裝SQL編輯器的事實也推動了這種輕松運行查詢的能力。 借助基于云的數據,倉庫附帶了SaaS SQL編輯器。 在下一節中,我們將更多地討論SaaS SQL編輯器。
但是,這里的重要部分是您不必等待30分鐘就可以安裝編輯器,而不必理會所有管理它的麻煩。
現在,您只需轉到URL即可訪問團隊的數據倉庫。 這使公司中的任何人都可以輕松訪問其數據。
我們從傳聞中獲得的經驗以及在過去五年中確實確實對.com進行跟蹤的事實表明了這一點,該網站在2019年的跟蹤顯示了對SQL技能的穩定需求。
總體而言,我們預見了一個未來,不僅僅是大型科技公司正在使用SQL和分析來制定明智的決策。 為此,我們將需要能夠使任何人更輕松地訪問其公司數據的工具。
SQL和Analytics(分析)正變得更加協作

SQL和分析變得更加協作。 如前所述,從數據中獲取見解變得越來越多。 這意味著更多的人正在參與創建查詢,分析和指標。
協作工作始于Google表格之類的產品。 這種趨勢一直在擴展到SaaS產品,例如Figma(協作設計)和PopSQL(協作SQL)。
諸如PopSQL之類的技術為您的團隊提供了通過文件夾和版本控制輕松協作并跟蹤查詢工作的能力。
現在,您不必擔心有人不小心更改了報表或儀表板上的查詢。 版本控制可讓您還原先前保存狀態下的查詢。 這樣可以確保您的團隊與SQL和用于計算指標的邏輯始終處于同一頁面上。
您還可以輕松共享查詢,更新查詢,將其派生并可視化數據。
此外,Figma,Google Sheets和PopSQL等工具可輕松與Slack等其他協作工具集成。 這些集成還使您的團隊可以輕松共享圖表,查詢,設計和見解。
您的團隊可以輕松地看到其他人正在做的工作,正在做的更改,并了解為什么要進行更改。
隨著遠程工作的概念在許多公司中變得越來越現實,擁有易于協作的工具將變得非常重要。
最后,像PopSQL這樣的技術在自助服務分析方面邁出了重要的一步,因為它們將查詢數據的能力置于分析師和數據工程師的手中。
開源仍然是很受歡迎的數據庫
像Oracle和MSSQL這樣的付費許可數據庫管理系統對于團隊來說似乎是非常受歡迎的選擇。 但是,MySQL和Postgres這兩個開源數據庫管理系統是當前開發人員最喜歡使用的選項。
根據EverSQL在2018年和2020年進行的一項調查,MySQL仍然是開發最流行的數據庫管理系統。 另外,根據Stack Overflow的數據,Postgres最近已超過MSSQL,成為第二受歡迎的數據庫。
Postgres引入了一種新型的關系數據庫。 這就是所謂的對象關系數據庫管理系統(ORDMS)。 這具有與面向對象的編程類似的屬性,您可以在其中具有類和繼承。 另外,有關Postgres的其他一些漂亮功能是它允許數組并具有一些PubSub功能。
向開源的轉變并不新鮮。 但是,事實是,許多公司開始放棄使用Oracle和Microsoft的免費選項。 他們選擇支付云計算成本還是支付許可成本。
總體而言,我們發現開發人員的數據庫選擇發生了許多變化。
云優先的開源數據庫正在獲得牽引力和資金

盡管對于選擇從Oracle轉向開放源代碼解決方案的公司來說,Postgres經常是一個常見的選擇,但在開發Postgres時并未考慮到云基礎架構和復雜性。
這迫使團隊開發復雜的云基礎架構,以管理在全球范圍內使用的應用程序。
但是,還有其他開源解決方案。 在2019年7月,YugabyteDB開源了100%。 現在許多人可能會問(特別是如果您在美國),"什么是YugabyteDB?"
YugaByte專有的面向文檔的存儲格式是RocksDB的高度定制形式,可提供低延遲訪問和高數據密度。 它在流行和已知的API上運行。
YugaByte旨在填補所有空白。 想要也是ACID的NoSQL數據庫嗎? 然后Yugabyte打算占領這個市場。
它正在尋求解決開發人員在部署SQL數據庫(如MySQL)時遇到的問題,這些SQL數據庫需要分片和復雜的基礎架構來運行多區域系統。
YugaByteDB通過自動分片和負載平衡以及其他一些利用云優先方法的功能來實現此目的。
那么,如果YugaByte自2016年以來一直存在,為什么還要在此更新中使用它呢?
這是因為Wipro Ventures本月初向Yugabyte投資了3000萬美元。 此外,Wipro還計劃將Yugabyte的開源SQL數據庫帶給客戶。 有1,000家可能正在使用Yugabyte的新公司。
盡管Yugabyte不在EverSQL的調查結果中,但在未來幾年中,由于受到更多的關注和更多用戶的關注,它可能會出現。 現在,說實話,解決NoSQL和標準關系數據庫所有問題的數據庫將是一個奇跡。 因此,從很多方面來說,我們感到驚訝的是并沒有得到更大的采用。
我們很想知道在未來幾年中,Yugabyte是否像承諾解決組織中所有問題的許多其他奇跡技術一樣,或者像許多其他奇跡般消失了。
用于數據倉庫的分布式數據庫已成為常態
在技術世界中,數據庫有兩種主要用途:應用程序和分析。
這兩個主要用例得益于不同的數據庫系統和不同的數據庫設計。
特別是,為單個公司的數千名分析師,數據科學家和數據工程師運行數百萬次計算的分析數據庫通常會受益于某種形式的分布式或并行組件。 想想Redshift及其如何依賴MPP(大規模并行處理)。
但是,這個領域有很多新的SQL和NoSQL技術。
例如,Facebook Presto的分支Starburst,又獲得了4,200萬美元的資金。 Starburst是Facebook開源項目(Presto)的衍生產品。 Starburst的目標是創建Presto的企業版,因為Presto本身不具有訪問管理功能,Teradata,Snowflake和DB2等企業系統的連接器,或者用戶可以在其中配置集群以自動擴展的管理控制臺。
對于大多數公司來說,這使Presto很難單獨使用。 真可惜,因為Presto允許您輕松地跨數據庫運行查詢,而無需將數據加載到數據倉庫中。
因此,最近為Starburst提供的資金非常值得一看。 我們期待看到這項技術的發展方向,并希望更多的公司可以利用Presto的優勢,而不必麻煩管理Presto的所有復雜性。
當我們談論像Presto這樣的分布式數據庫系統時,本月另一個有趣的發展是Spark 3.0的發布。 新版本的Spark帶來了許多增強功能。 其中許多增強功能旨在使Spark SQL變得更符合ANSI SQL。
這是重要的說明。 一種似乎仍然正確的模式是您無法照原樣擺脫SQL。 許多工具和技術已嘗試開發其查詢語言。 但是,歸根結底,SQL仍然存在-與許多已經淘汰的編程語言不同。
SQL仍然是數據的語言。
您的團隊如何利用您的數據?
數據庫和SQL不會無處可去。 如果有的話,它們正變得越來越普遍。 諸如Starburst和PopSQL之類的工具顯示出讓您的工程師,分析師,甚至您的非技術人員都精通數據的重要性。
這些技術或類似技術肯定會在大小公司中大量使用,因此它們可以幫助改善決策。
我們喜歡看到PopSQL和Starburst等工具。 這些工具通過使SQL更具協作性并簡化諸如Presto之類的強大技術的部署來打開數據世界。 這有助于提高公司執行數據分析,做出更好的決策和開發更好的數據流程的能力。
這樣一來,我們將總結每兩周一次的數據和技術世界動態。 我們的目標是繼續提供有關新興技術,風險投資等方面的未來更新。
敬請關注!