“鴛鴦鍋”玩轉大數據
近視、脫發
頸椎、腰椎問題
還有久坐不動
漸漸發福的身體...
上面這些癥狀
別說你沒有
而且,干IT這行的更是重災區
怎么辦?
沒準兒,還能像小張一樣
不僅把身體練好了
IT人的第六感,
小張在健身房找到了同行
小張是某教育機構的一名程序媛,看著自己漸漸凸出的中段兒,越發渾實的四肢,隱隱顯露的雙下巴,在今年年初終于下狠心報了一個私教班。
健身半年以來,小張的工作狀態愈發精進,頻頻受到領導表揚。這不,上周有消息說,公司又成功拿到了新一輪的融資。小張聽到消息后,樂得只想蹦迪,感覺自己距車厘子自由,skII 自由已經不遠了。
然而這個disco還沒蹦完,領導就給她布置了個難題。因為公司擴張,對數據的存儲和分析要求更高,普通的數據倉庫已經無法滿足需求,需要尋找一個新的解決方案。
但對于大數據,小張并沒有過深入的了解,公司也沒有相關的團隊。怎么辦?小張抓耳撓腮,這時候想起來,健身房里有一個叫小戴的,是個同行,也許他能知道。
要說為什么小張知道小戴和自己是同行,沒有別的,這就是IT人特有第六感。
一次健身課后,小張主動約小戴一起吃火鍋,兩人一拍即合。于是,隔著火鍋店里氤氳的霧氣,愉快地聊了起來。
吃火鍋,秒懂Hadoop
小戴夾起一塊麻辣牛肉放進鍋里,慢悠悠說道:“數據湖是大數據匯集、處理和應用的基礎設施,只有將數據存儲在數據湖中才能更加高效、安全、低成本地實現數據掘金。
就像我們面前這口火鍋,各種蔬菜肉類都能放,撈出來就能吃,簡單又美味。而小炒一鍋只能燒一個菜,盡管精致,但要以吃貨來論的話,效率可遠遠比不上火鍋。”
小張聽了連連點頭,搶話說:數據湖最早在2011年由CITOResearch網站的CTO和作家DanWoods提出。經過多年的發展,數據湖可以存儲非結構化、半結構化、結構化等任意結構數據的并行系統;而且數據的存儲、清洗、分析、展現、管理都在一個平臺內完成,無需數據遷移。
小戴抬頭看了下對面的女孩,心想:還算懂一點兒。
小張嚼著嘴里的羊肉,又慢慢夾起來一塊嫩嫩的鴨血,放進鍋里。心想:終于把我提前半個小時記的內容背了下來,你倒是繼續呀,我可只記住了這些。
小戴放下筷子,緩緩說道:“提起數據湖,總離不開Hadoop,今天,大部分大數據處理平臺都采用Hadoop,不過…”
小張忍不住問道:“不過什么?”
“不過傳統的Hadoop中每個節點既是計算節點又是存儲節點,每個數據需要復制3份,防止單個節點故障造成的數據丟失。隨著數據量的不斷增加,傳統Hadoop的計算和存儲融合架構帶來缺點開始顯現。”
小戴指了指眼前的火鍋,繼續道:“就像我們眼前的這口火鍋,雖然食材各種都有,但它不靈活,因為鍋底是固定的,吃多了總會膩。所以傳統Hadoop也面臨著擴展不靈活,數據保護成本過高,平臺用途單一等問題。”
小張趕緊咽下嘴里的肉,嚴肅問道:“那你的意思是?”
小戴笑了笑,只說:“快吃飯吧,我都餓了。”
小張此時要崩潰了,居然還賣起了關子!?
見小戴守口如瓶,小張也只能作罷,兩個人愉快地吃完了火鍋,各回各家了。
第二天一早,小張就收到一個PDF文件,里面是昨天沒講完的下半部分...
計算存儲分離,
“鴛鴦鍋”玩轉大數據
針對傳統Hadoop不足,戴爾易安信Isilon和ECS通過自帶Hadoop屬性,實現了計算和存儲分離的架構。這種架構不僅能克服傳統Hadoop架構的不足,在進行大數據處理時還無需進行長時間的數據導入工作,實現數據就地分析,從而大大提高數據分析效率。
就像火鍋里的鴛鴦鍋,存儲是清湯鍋底,計算就是麻辣鍋底,兩者不僅互不干擾,而且滿足了各種食客的口腹之欲~
(不愧是鋼鐵直男,連鴛鴦鍋的圖都配了,看著小戴發來的PDF,小張心里想著...)
具體來說,和傳統Hadoop架構相比,基于Isilon或ECS搭建Hadoop大數據分析平臺具有以下優勢:
看完PDF后,小張立刻打電話向小戴道謝,然后開始著手準備數據湖的建設方案。
等等,這戀愛的酸臭味...
周一,小張剛到辦公室就接到了開會的通知,急急忙忙跑到會議室。抬頭一看,剛喝了一口還沒來的及咽下的咖啡差點噴出來,會議室大屏前站著的,是西裝革履的小戴!
小張回過神來的時候,小戴剛好說到重點,Isilon的數據湖對他們公司到底有什么用處:
1.集中存儲所有非結構化數據。各種影像、視頻、文檔、基因數據都可以集中存儲在Isilon上;
- 提供多種Hadoop版本支持。無需遷移數據,可以直接從大數據管理平臺升級為大數據分析平臺;
- 消除大數據孤島。在一個平臺上可以同時運行多個大數據應用,無需為每個大數據應用建設配套專用的存儲基礎設施;傳統上,當增加新的數字化應用或數字教學設備時,學校為每個應用程序或教學設備提供專用的存儲基礎設施。其結果是,各個應用系統都有獨立的存儲設備,形成物理上割裂的數據孤島。這些數據孤島只能被單獨管理,從而使得基礎設施變得復雜,運營和擴容更加昂貴;
2.簡化數據生命周期管理。戴爾易安信數據湖具有自動存儲分層和云歸檔功能,熱數據可以分布在高性能存儲介質上,冷數據可根據策略自動遷移到低成本存儲介質或者遷移到云中;隨著教育相關數據量的急劇增加,數據湖提供一種簡便、安全、易管理、易擴展的大數據存儲架構,在數據生命周期內進行對海量數據進行高效地管理和利用;
- 快速擴容,多維提升。采用Isilon建設的數據湖平臺可在1分鐘內完成在線擴容,并實現容量和性能的同步增長;
- 多級容錯,確保安全。Isilon具有多級容錯機制,可以靈活設置多種數據保護策略,防止多塊盤或多個節點同時損壞,帶來的業務中斷和數據丟失。
- 降低存儲成本。由于教育數據蘊含巨大的價值,因此大部分數據都需要長期保存,隨著數據量的增加,數據長期保存的成本也越來越高,而數據湖能顯著降低數據保存的總擁有成本;
- 發掘數據價值。數據只要整合到一起才能被有效利用和發揮最大的威力。各種結構、各種應用的數據可以通過多種協議匯集到數據湖中,并可在不遷移數據的前提下,對湖中的數據進行大數據分析和利用;
- 實現數據共享,數據匯總后,對數據分享十分有利。各個教育部門可以在數據湖中根據需要和對應的權限找到所需的數據;
- 便于教育協作,當各個教育機構的數據通過數據湖匯總后,便于開展部門間、高校間、地區間的教育協作、科研協作。
小戴剛說完,小張的領導就開口了,“挺不錯的,這聽起來能夠滿足我們公司的需求了。具體技術細節,你再和小張溝通溝通吧。”
小張內心OS:他把我想跟您說的,都說完了啊,老板!
小張表面鎮定,站起來跟小戴握手:戴先生,咱們再談談吧。
小戴:好嘞!我也有個...想跟你談談。
唉,等會兒!小編我仿佛聞到了什么...