成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

三個理由告訴你為什么需要在云端運行Spark

譯文
云計算 Spark
Spark的發展勢頭正猛,可是對主流用戶們來說還是太難了。云外加可視化也許有所幫助。

Spark的發展勢頭正猛,可是對主流用戶們來說還是太難了。云外加可視化也許有所幫助。

[[137532]]

開源項目Apache Spark如今可能是從加州大學伯克利分校的AMP實驗室孕育而來的最有名的項目。AMP實驗室置身于機器學習、云計算和眾包這三大潮流的交匯處,正在結合算法、機器和人員三者的力量,充分解讀大數據。

開發Spark的初衷是擴展AMP實驗室另一個項目Apache Mesos的功能,沒想到迅速流行起來,幾位開發者在2013年開了一家初創企業:Databricks,出資方是知名風投機構Andreessen Horowitz,通過主機托管的云平臺來提供Spark,因而讓數據專業人員很容易充分發揮Spark的功能。

作為一種替代Hadoop的MapReduce,并用來處理大數據的技術,Spark具有極大的吸引力。它結合了速度、易于使用的編程模型和統一設計,讓用戶能夠將交互式查詢、流式分析、機器學習和圖形計算合并到單一系統里面。

[[137533]]

Arsalan Tavakoli

將這種功能放到云端,又提供一種單一而出色的用戶體驗,你就為從事數據探查和構建端到端數據管道的任何人提供了一種殺手級平臺。使用從頭開始為大數據開發的可視化分析應用程序,比如Zoomdata,你就有了一種殺手級價值主張,可以進行超快速的商業智能(BI)可視化分析。

我采訪了Databricks公司的客戶互動副總裁Arsalan Tavakoli,請他談談Spark和數據分析技術如何成為強大的組合。

為何Spark放在云端?既然我下載Spark后可以在內部本地運行Spark,為何還需要向Databricks租用Spark呢?

Tavakoli:很顯然,Spark是作為一種開源產品來提供的。誰都可以從眾多供應商處下載,并使用它。但是我們考察了大數據項目失敗的客戶后,發現通常有三個原因可以解釋項目為何會失敗。

首先,基礎設施管理很難。如果是在內部本地運行,你要考慮6到9個月的過渡期,才能讓大數據基礎設施投入到生產環境,有時需要更長的時間。即便你在亞馬遜網絡服務(AWS)上運行Spark,也得編寫EC2腳本,讓開發運營(DevOps)人員參與其中。這并不好。

切記,基礎設施很難。而許多公司求助于Spark,很大程度上是由于其快速的創新周期。它們想獲得由數百人貢獻代碼、一直日臻完善的這樣一項技術帶來的好處。這意味著,這也是一項迅速前進的技術。你的團隊需要花多長時間才能將最新版本部署并運行起來?

其次,一旦你的Spark集群安搭建并運行起來,該如何處理它?數據科學家往往使用偏愛的語言,比如R和Python。現在,他們不得不弄清楚如何導入數據,如何讓任務盡快運行起來。處理獨立式Spark所必不可少的工具鏈可能對這些用戶來說難以使用。你又該如何運行你的分析技術、與同事合作呢?

這并非易事。

第三,在你全面測試了查詢和模型后,你想進入到生產環境――這個過程看起來像什么?在大多數公司,這意味著將你的模型交給工程團隊,這支團隊回過頭去,將你認為需要的特性重新實施到所有新的基礎設施上。

像Databricks這樣的云平臺提供了一套集成的、主機托管的解決方案,消除了企業采用Spark和確保大數據項目成功所面臨的這三大障礙。我們為你提供了全面管理和調優的Spark集群,開發Spark的一群專家在大力支持。我們的平臺為你提供了一種互動式工作區域,以便探查、可視化、合作和發布。如果你已準備好進入生產環境,只要點擊一下鼠標即可啟動任務。我們會自動搭建基礎設施。

另外,我們還提供了一組豐富的API,以便通過編程訪問該平臺,這還讓用戶能夠無縫整合第三方應用程序。

#p#

請說一下為何客戶們想要在云端進行商業智能可視化。有沒有特別的原因可以解釋交付的這種平臺最適合商業智能可視化?

Tavakoli:人們想要使用數據來獲得洞察力,以便深入了解公司業務,而數據工程師和數據科學家致力于提供這種洞察力。但是除非你是像Pinterest、Netflix或Facebook這樣的技術型公司,否則他們(數據工程師和數據科學家)只是任何企業組織的一小部分。業務分析員和最終用戶這個用戶群要大得多。

比如說,營銷部門的人想對數據進行大致的交叉分析,可是苦于沒有相應的技術技能。他們就想在受到嚴重制約的決策空間獲得儀表板或諸如此類的工具。

明智的公司知道,自己應該幫助員工能夠自我管理。這時候,商業智能可視化可以發揮其作用。你可能會需要一款針對特定領域的應用程序。

這么說來,這是貴公司與Zoomdata達成合作伙伴的原因?Databricks Cloud的用戶可以從這種合作關系中得到原本得不到的哪些好處?

Tavakoli:我們的客戶使用場合與Zoomdata存在諸多重疊之處。許多這些企業是典型的早期采用者,它們高度依賴數據工程師和數據科學家。所有這些企業組織還有一個主要的商業智能倉庫組件。

但是這些公司可能會問自己的下一個問題是:我如何才能讓這對更多的用戶來說更簡單?我擁有所有這些數據,可以用Spark來處理,如何才能提供給不是開發人員的那些用戶呢?

為此,商業智能可視化應用程序再理想不過,而Zoomdata證明了它很適合我們的云。

您在這種Databricks/Zoomdata聯合解決方案方面看到一些常見的使用場合有哪些?

Tavakoli:一種常見的使用場合是廣告技術(AdTech)垂直領域。

廣告技術公司通常有下列流程:它們從眾多來源匯集數據,建立起內部數據庫,然后這些數據通過又長又深的抽取、轉換和加載(ETL)管道,轉換成經過處理的形式。

隨后,每個客戶提供來自CRM和營銷自動化系統的數據,這些數據需要與該內部數據庫結合起來,才能解答營銷活動效果方面的問題。這個過程由全面檢驗了深入理論的數據工程師和數據科學家來處理。

另一方面,數據分析師和產品經理們想要提出更大致的問題,比如產品中哪項功能最有效,或者他們想知道移動廣告的效果怎樣。這一群用戶在使用Zoomdata之類的商業智能用戶界面時得心應手。

另一種使用場合是物聯網。Automatic Labs等公司獲取來自汽車里面所有設備的全部數據。數據科學家分析與汽車、成本和駕駛模式有關的基本趨勢方面的更深入問題。

像客戶經理這些非專家人員可能就是想查看不同的數據,以便與保險費率關聯起來。這些人可不想處理搭建Spark集群以及編寫Python或SQL代碼之類的事情。

貴公司會考慮通過主機托管的云平臺使用Spark嗎?為何考慮,或者為何不考慮?歡迎留言交流!

原文鏈接:Three reasons you need to run Spark in the cloud
 

責任編輯:Ophira 來源: 51CTO
相關推薦

2021-07-27 18:13:00

比特幣加密貨幣貨幣

2015-08-11 09:48:53

2011-08-01 14:33:44

SQL

2016-11-09 19:50:43

對象存儲AWS S3

2022-03-09 17:37:55

前端架構微前端

2025-01-08 08:47:56

2009-08-08 08:47:07

Windows 7新特性

2018-04-10 09:17:09

NAS移動硬盤

2019-09-10 22:24:27

2020-01-03 16:16:15

云計算技術工具

2018-04-26 10:13:32

云計算遷移云端

2014-11-03 09:21:21

戴爾

2014-09-24 09:31:31

Dockersshd

2014-10-15 11:21:01

HTMLCSS

2021-11-17 10:38:22

邊緣計算云端

2016-02-22 10:46:02

Java排行第一

2012-04-05 10:25:46

Linux操作系統

2013-03-04 09:34:48

CSSWeb

2021-02-27 10:38:56

Python結構數據

2015-10-12 09:59:52

大數據營銷
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91综合网 | 成人在线播放网站 | 成人h片在线观看 | 日韩在线成人 | 免费在线一区二区 | 国产精品久久久久久久久久久久冷 | 欧美国产日本一区 | 久久久91| 久久久久久免费精品一区二区三区 | 狠狠操电影 | 亚欧精品一区 | 天天草天天 | 亚洲精品乱码久久久久久久久久 | 在线黄色影院 | 亚洲黄色视屏 | 日韩精品一二三 | 日韩在线观看视频一区 | 日韩久久久久久 | 国产精品96久久久久久 | 国产一区 | 日韩看片 | 国产激情偷乱视频一区二区三区 | 一级毛片在线播放 | 国产精品久久久久久久久久久久久久 | 亚洲欧美在线观看 | 亚洲热在线视频 | 干干天天 | 欧美日韩一 | 日韩欧美在线视频 | 久久精品国产一区二区电影 | 日韩成人精品 | 91在线一区 | 欧美精品区 | 激情五月婷婷丁香 | 热久久999 | 欧美日韩视频在线第一区 | 永久av| 久久99精品久久久久久 | 美国一级黄色片 | 欧美日韩国产精品激情在线播放 | 国产日韩欧美精品一区二区三区 |