成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

案例研究:在大型金融組織選擇大數據和數據科學技術

大數據
數據科學正快速成為各行各業開發人員和管理人員的關鍵技能,同時它似乎也非常有趣。但它也相當復雜——有太多的工程分析技術,你很難知道自己做得是否正確或者哪里存在陷阱。在該系列文章中,我們將探討如何利用數據科學——從已經采用并成功實施數據科學的人們那里,了解數據科學的適用場景,以及如何讓它成為你的資產。

數據科學正快速成為各行各業開發人員和管理人員的關鍵技能,同時它似乎也非常有趣。但它也相當復雜——有太多的工程分析技術,你很難知道自己做得是否正確或者哪里存在陷阱。在該系列文章中,我們將探討如何利用數據科學——從已經采用并成功實施數據科學的人們那里,了解數據科學的適用場景,以及如何讓它成為你的資產。

[[179061]]

本文要點

  • 將大數據和數據科學技術應用到企業組織里是變革性的項目,它有點類似向敏捷組織轉型,同樣充滿了挑戰。
  • 如果能獲得高層領導的支持并讓利益相關者參與進來,那么使用敏捷方法進行此類業務轉型會有顯著的效果。
  • 在談論技術選型之前,首先要關注戰略性的業務產出以及企業組織對新功能的需求。讓每個利益相關者對新功能的優先級排序都有發言權,并就后續技術選型進行合作。
  • 避免在既不能跟上需求變化又不能獲得額外收益的技術上加倍投入。
  • 要注意在開放數據和保持數據安全之間存在的矛盾。在安全問題上,覺察力(perception)也很重要,不僅要遵守而且要格外注意。

企業組織現在越來越多地采用數據科學和高級分析技術,也越來越多地影響著決策、產品和服務。因此經常有人問到:數據科學最好的工具集是什么?從表面上看,這個問題似乎是關于技術之間的比較。結果你可能需要審閱一長串關于R、Spark ML及其相關技術(如Jupyter或Zeppelin)的利弊列表。我們的確可以寫出一系列有關技術比較的文章。然而,對企業組織而言,首要問題是什么功能能夠支持其未來的業務目標。關注這些可以讓技術選型變得更容易,并且降低浪費時間和精力的風險。

我們如何才能達成共識,以務實和富有成效的方式進行有關技術選型的討論?在這篇文章中,我們通過實際案例來探討什么才是合適的框架。對企業組織來說,最典型的切入點是那些大量存在的數據孤島(silos)和過度采用的技術。你不想僅僅因為利益相關者的要求而增加更多的技術和數據孤島。新的技術和基礎設施應取代現有技術并替換數據孤島。但在現今的大環境下要做到這點并不容易,因為傳統分析技術和商業智能供應商聲稱他們擁有針對新挑戰的解決方案,同時還有大量的新技術出現,其中許多是開源的,這提供了更多的選擇。新技術通常都宣稱能取代傳統工具,并提供傳統工具無法企及的功能。而傳統技術則反駁說它們能提供更好的企業品質,比如安全和支持。

我們在這里討論的現實案例中的客戶在一年多前與我的雇主聯系,他們在短期和長期的戰略需求方面面臨著巨大挑戰。這家FTSE 100公司正處于其生命周期中的轉型時刻。它的整個組織結構發生了顯著變化,需要重新改造其部分現有平臺,因為它分裂的組織結構和依賴項不可維護,無法創造商業價值。在我們來看,客戶的迫切需求是:在極短的期限內,用一種完全透明的方式,混合集成歷史數據,解決高級報告和新數據平臺分析技術所面臨的問題。客戶現有的數據倉庫技術基于應用技術,十分昂貴且有局限性。如果不投入大量資金并且增添新興的分析功能,新的報告和高級分析功能執行起來會極其緩慢甚至無法執行。

成本和局限性是重點關注對象。我們的客戶意識到由于可預見的突破性技術變革,市場競爭正變得越來越激烈,從長遠來看,源于核心業務活動的價值將不可避免地縮減。企業組織的領導者意識到他們迫切需要開發新的功能,以便在處理完當前的緊急需求后立即為企業的未來發展做好準備。

我們與主要利益相關者合作制定了一個計劃,將主要數據集集中在一個中心區域,便于在企業未來的新一輪變革中靈活處理和分析。值得注意的是,我們并沒有放棄核心數據倉庫,只是把它還原到原先的角色。然而,我們仍然會逐步淘汰大量的舊系統,這些系統大多數存有數據并且難以訪問。同時,要保證數據在不同平臺上正常流動,以確保監管和安全。我們因此把高級分析技術和數據科學技術問題延后討論。這是可行的,因為新平臺可以在必要時根據需要采用那些相關技術。采用這種方法給客戶帶來的好處是顯而易見的。未來的業務仍在不斷變化,而眼前的業務需求需要馬上得到解決。將決策和實施分階段實施,且不阻礙平臺的創新,這是一個雙贏的解決方案。

第一個教訓是避免在跟不上需求變化的技術上加倍投入。此外,尤為重要的是不要進行一對一的技術匹配。比如不要用一種相似的技術替換原有技術,這樣做得到的效益十分有限。我們要考量這些技術給組織帶來的成本支出和它們所能為組織提供的功能。大家總是希望借由更少更便宜的技術來降低成本,并指望它們能提供更多業務功能。理想情況是我們可以兩者兼顧。在這個案例中,我們在淘汰舊系統的同時減少了數據倉庫占用的空間,節省下來的資源可用于新的分析技術平臺,這反過來取代了一些原有功能并增加了相關的新功能。

有了這個概念,我們就可以專注于我們正在努力實現的目標。現在的企業和以前的企業所面臨的挑戰是相同的。他們必須降低成本,提高盈利能力,不斷改進以保持合規,并且在這個被服務自動化和商品化所驅動的環境里,可能還需要重新定義其核心業務。例如,過去幾年中,數據和對數據的有效利用正在成為應對這些挑戰的關鍵機會。

問題在于大多數企業組織不知道該如何尋求答案甚至不知道問題出在哪里。在各個業務領域內通常都有一些唾手可得的短期機會,它們將給現狀帶來完全可預期的改進。但大多數利益相關者已經習慣于自身的局限性,他們需要打破這種局限。當問及他們想要實現什么時,他們要么把思考局限在企業組織現有的功能范圍內,要么為了解決未來的未知需求而要求那些不切實際的東西。

因此那些包括重新定位自身核心業務在內的長期基礎性需求通常很難甚至無法得到滿足。所以第二個教訓是不要著眼于辦不到的事情上,不要試圖去預測未來,而是應該對眼下出現的需求靈活以對。在我們的案例中,你可以看到我們在不限制條件或不返工的情況下,為平臺將來的迭代擴展留下空間。這是通過規劃多個增建(buildout)步驟做到的。可以在合適的時機往這些步驟里添加一系列的功能。這里從諸多的功能中列出其中的兩項,比如流處理功能或鍵值存儲(key values stores)功能。

然而,如果我們完全以技術為驅動,指望使用各種技術來取代事后的內部反思(inward reflection)和需求收集,這是有風險的。我們可能最終采用了沒有任何商業目的或價值的技術,導致高額的成本和高度復雜性,更糟糕的情況是導致項目完全失敗。大數據和數據科學的流行促使利益相關者在這種情況下容易陷入炒作陷阱。他們認為采用技術可以解決業務目標、功能和需求方面的問題。對利益相關者來說,至關重要的是必須在大數據和數據科學方面提出正確的問題,以避免困惑和失望。這些問題是先決條件,包括具體的戰略業務目標和需求。雖然戰略目標必須從一開始就明確,但是如我們的案例所示,需求可以隨著時間反復推導。

企業組織可以使用適當的大數據戰略來評估當前形勢,明確需求,并采用有關數據存儲、處理和分析的新功能。事實上,這種敏捷性是以數據為驅動的現代組織的基礎,它讓企業能夠在快速發展的技術環境中良好運作。數據科學可以利用組織在評估和采用這些技術方面所具備的能力。數據科學還為來自兩方面的挑戰提出了深入的見解,并給出了恰當的解決方案。這兩方面的挑戰一個是更多、更快、更多元化的數據,另一個是人們對這些數據在驅動產品、服務、洞察力和決策方面無限增長的期望。

在我們的案例中,傳統的數據倉庫解決方案正面臨著挑戰,因為它在單獨完成第一個任務時,缺乏足夠的靈活性來解決任何未知需求。不過這種解決方案也不是一無是處,因為這項特定業務在金融行業中運作,帶有敏感數據并且受到高度監管。這項業務需要得到更深入的挖掘,而這又必須允許眾多數據科學家和商業用戶訪問數據。大多數企業組織都存在這種矛盾,既要讓所有潛在消費者都能接觸到所有數據,但同時要確保數據的安全,不被濫用或泄漏。

對政府、醫療保健和金融客戶來說,他們還得經受得住新聞媒體的考驗,因為任何數據安全方面的問題,不管是真實發生了抑或是有發生的跡象,都可能成為災難性的新聞頭條。因此,安全問題不僅存在于現實中,也存在于意識中。有趣的是,這也是為什么許多客戶對云技術猶豫不決的原因,因為在云技術里,隨著安全的改進,感知和現實越來越互相偏離。有些公司可能要顧慮合規性,比如在哪里存儲數據。另外,云服務供應商把越來越多的區域納入監管范圍來滿足合規需求。

我們的客戶選擇了使用本地部署方案,我們為他們列出了解決當前問題需要的關鍵性功能,并為他們設計了一個將來可靈活擴展的平臺。首要目標是構建一個平臺,這個平臺以Hadoop及其生態系統為核心,獲取新舊數據,使用掩碼和加密確保數據安全,然后基于這些數據生成報告。該方案所需的分析工具很簡單,通常會利用SQL接口把那些遺留工具接入Hadoop生態系統,并使用Apache Hive。 Hive是第一選擇,因為它是整個分布式系統不可分割的一部分,它穩定而且對SQL支持良好,遺留系統可以通過標準連接訪問它,它還跟分布式安全模型緊密集成。此外,第一階段的性能要求與用于分析和報告的大小批次的數據更為相關。

核心平臺的構建和集成,以及必要的PCI合規性,是現階段的關鍵挑戰。由于時間緊迫,我們必須立即開展工作,所有利益相關者都很樂意通過“失敗排除法”(fail fast)對平臺關鍵要素的落地實施進行驗證,以迅速找到組織性阻礙和技術限制。自然而然地,只有當所有發現的問題都得到了解決,“失敗排除”才是有效的。因此,無論是否能夠達到某個里程碑,我們都需要在工作中舉辦一些研討會,比如學習一些新的知識、引入新的業務,讓技術利益相關者參與進來,一起解決問題或者為下一步的發展制訂計劃。

雖然有時也會遭遇困難,但是這種方法在高層領導支持下會比較有效。現有的流程和技術以及已建立合作的供應商可能需要被作為解決方案的一部分進行評估。有時候這會導致與供應商和企業利益相關者在如實處理失敗情況時對話困難,無論問題是來自于組織自身還是來自供應商和合作伙伴。高層利益相關者要強勢進行戰略審查和問題分析,因為身處數據驅動的發展最前沿,他們也是少數幾個應該負責找出問題根源的人。這是唯一可行的建設性合作方法。因此必須讓利益相關者加入研討會并傾聽他們的需求和進程,能在概念驗證環境下進行反復驗證,進而探討各種可行或不可行的方法,這是極其重要的,這才能使我們迅速在工作上獲得進展。

對敏感數據加密工具和屏蔽工具的選擇是快速淘汰機制的一個很好的例子。一個有名的市場參與者推出了他們的解決方案,并堅稱他們在金融方面的成功案例讓他們成為客戶的第一選擇。然而事實證明,市場已經遠離了他們。同時,Hadoop生態系統的新功能,比如透明數據加密與多租戶模式的結合,對他們的產品和安全機制來說改變太大,無法適用。快速淘汰機制的良好運作以及在概念驗證環境中引入新供應商的能力讓延遲變得可控,并且這項選擇工作在新一輪對另一提供商的評估之后取得了進展。

隨著第一階段的工作即將完成,整個組織的需求增加了,比如,訪問平臺和數據,增加工具以便更好地支持數據科學家和高級業務分析師。這些需求涵蓋了探索性分析、幾近實時的高級報告以及智能應用和產品。滿足這些需求需要許多功能和工具。此外,許多數據科學家偏好不同的工具,包括R,Python(scikit-learn),Spark ML(使用Python,Scala或Java),以及各種商業解決方案和筆記工具(比如Jupyter或Zeppelin)。還有很多還不是很明確的初步需求和偏好,需要跟能夠達成它們的工具進行匹配。我們還要注意監管、安全性、業務持續性、軟件和數據集開發生命周期以及成本、復雜性和風險等這些常被忽略的問題。簡而言之,組織要么在低風險的情況下以一種及時且可盈利的方式持續創新,要么被技術淹沒。

創新靈活性太高和肆意采用技術會帶來風險,使組織癱瘓。組織里的數據可能由于缺乏監管和安全性不足而泄漏或質量下降。當企業組織需要支持太多技術時,可能會導致資源缺乏和集成不可控。另一方面,緊密而簡約且只考慮安全性的技術選型將會扼殺組織創新,造成人才流失、功能缺失,組織將最終發現自己無法應對新的機會和風險。另一種與上述完全不同的理念是通過漫長的瀑布迭代流程來制訂完美解決方案。這種理念在無法收集需求、技術能力不斷改變的創新環境下不占優勢。

當我們將組織設想為一個擁有有限資源并旨在從中獲得最大相關功能的實體時,敏捷式方法將成為最佳選擇。其發展框架類似于我們用來評估技術選型和解決核心平臺開發和構建時所出現問題的研討會。我們可以將相關業務部門的各種數據科學和分析技術的利益相關者匯聚到一起進行討論。什么是易于理解的用例?它們的優先等級和對組織的影響是什么?實施它們需要具備哪些條件?還有不太為人所了解的未來創新理念和潛在的功能需求?第二部分是技術問題。團隊的技術偏好和現有技能是什么?對于各種必須得到滿足的要求和組織標準,它們在開發生命周期方面有什么樣的需求?理想情況下,技術問題能得到來自安全、基礎設施、運營以及軟件開發等部門的利益相關者的支持。

我們的客戶比較先進,已經有顯著的獨立性,因為它的一些重要高層領導是大數據和分析技術專家。然而,他們也希望得到外部支持,得到同一領域專家的獨立指導和評估。對于顧問而言,當客戶接受你作為權威和值得信賴的獨立顧問,這是夢寐以求的結果。我們一起舉辦了一個為數據科學工作做準備的研討會。我們收集了各類信息,并且在研討會期間,我們就能夠做到對各個業務部門的工作按照優先級排序,并淘汰不合適的技術。

練習的效果是立竿見影的。所有利益相關者都互相認識,了解彼此的愿望和喜好,這本身就是有價值的。此外,基于幾近實時流數據,我們還能夠識別重要工作和決策服務。這可以為各方所用,也就是說,每個人在某些情況下都需要用到這類服務。我們能夠避免類同開發,集中精力并將其作為試點項目優先安排。在缺乏監管的狀態下,會出現不同業務部門使用不同的技術開發出同一個服務的不同版本。而采用上述的方法,我們就能夠整合精力和工具選擇。

我們的下一步計劃是選擇第一組要添加到數據科學工作平臺的技術,特別是用于流數據的Spark ML、Java、Python以及Kafka。這些技術引入了現有用戶案例所需的功能,并且還將涵蓋一些未來和次要的用例。這個選擇是在研討會討論最終候選技術并且考慮了運營和組織方面的問題之后做出的。例如,我們需要確定哪些技術受到最為廣泛的支持和采用,并且最為成熟。是否得到廣泛采用是在我們在這個階段選擇Java而不是Scala的一個影響因素。

重要的是不要排除任何可能性,并讓利益相關者參與建設性討論。如果備選方案看起來不可行,我們可以通過上述框架來降低它們的優先級。

我們即將參與服務的開發。可預見的好處是這為組織帶來了一系列技術及其功能。我們會立即在關鍵業務項目中評估其非功能性能力,例如,圍繞安全性、可靠性和性能來評估。此外,如果能證明這些技術有效和可用,它們可能被業務利益相關者采納,減少對重疊替代方案的需求。有了正確的選擇和成功的表現,持續采用更多技術的需求將逐漸淡去,而采用現有成熟可用的解決方案將變得越來越普遍。

我們將來的計劃是繼續使用該框架,并收集利益相關者和用戶反饋,以便在現有功能不足的情況下進行評估和進一步采用技術。隨后的研討會將自然地從廣泛的技術選型討論轉移到維護問題的討論,最終我們將討論在市場不斷發展的情況下逐步淘汰技術的話題。

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2020-12-31 06:18:08

人工智能物聯網大數據

2021-01-12 11:31:09

數據科學數據大數據

2021-05-10 11:33:11

數字化

2018-05-29 09:38:40

大數據金融行業銀行業

2018-10-24 14:36:59

2018-03-02 10:31:48

大數據 供應鏈金融

2017-08-08 09:48:41

數據科學技術

2018-04-16 11:11:56

2019-07-08 15:38:56

FedoraJupyter數據科學家

2017-07-11 06:07:59

金融大數據互聯網

2022-08-31 12:25:26

大數據技術金融行業

2023-05-08 07:25:47

2016-11-08 16:42:03

算法AI大數據

2016-12-12 13:51:32

2014-03-12 10:31:32

大數據

2018-11-19 13:44:39

2020-12-02 15:39:12

大數據科技金融

2013-09-11 16:40:35

互聯網金融大數據金融大數據

2022-05-26 14:47:04

大數據數據分析數字技術

2018-08-19 15:39:56

數據分析數據科學數據工程師
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 断背山在线观看 | 国产精品成人一区 | 欧美日韩一区二区三区视频 | 欧美一区二区三区在线 | 极品国产视频 | 国产福利91精品一区二区三区 | 欧美在线观看黄色 | 国产精品三级久久久久久电影 | 三级视频久久 | 欧美精品成人一区二区三区四区 | 狠狠爱一区二区三区 | 欧美精品综合在线 | 日日想夜夜操 | 激情视频网站 | 秋霞电影一区二区三区 | 亚洲欧美日韩精品久久亚洲区 | 国产精品福利视频 | 国产在线观看一区 | 日韩一二区在线观看 | 天天干天天玩天天操 | 亚洲欧美中文字幕在线观看 | 久久国产精品视频免费看 | 国产一区二区 | 中文字幕第90页 | 欧美日韩综合一区 | 91视频在线看| 久久爱综合 | 欧美一级特黄aaa大片在线观看 | 毛片一级电影 | 国产精品一区二区av | 搞av.com| 午夜免费在线电影 | 91视频进入 | 激情91 | 久久99精品视频 | 成人性视频免费网站 | 麻豆久久久久久久久久 | 日韩高清在线 | 国产精品成人品 | 亚洲欧洲激情 | 国产欧美精品 |