成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據平臺技術發展脈絡

大數據
作為集團“大數據平臺技術”戰略研究的準備工作,本文梳理了近年來作者觀測到的大數據行業技術演進的路徑,希望把握發展脈絡,找到適合公司業務實際的方向。文章力求用通俗的方式描述概念,最大程度減少專業圖表與細節,以便向公司管理層與業務部門同事介紹大數據平臺技術的發展與趨勢,這里分享給金融行業的朋友參考。

作為集團“大數據平臺技術”戰略研究的準備工作,本文梳理了近年來作者觀測到的大數據行業技術演進的路徑,希望把握發展脈絡,找到適合公司業務實際的方向。文章力求用通俗的方式描述概念,最大程度減少專業圖表與細節,以便向公司管理層與業務部門同事介紹大數據平臺技術的發展與趨勢,這里分享給金融行業的朋友參考。

大數據平臺技術發展脈絡

數據技術演進

軟件系統,小到HelloWorld編程入門,大到數億人同時使用的社交軟件、搜索引擎,或者是基于公有云的軟件即服務(SaaS),本質上都是在處理兩件事情:業務邏輯與數據。隨著信息時代的縱深發展,業務邏輯不斷豐富與演化的同時,其所產生與處理的數據量(Volume)也出現指數級的迅速增長,業務所要求的系統處理速度(Velocity)從批量向準實時與實時過度,數據的種類(Variety)也從簡單的結構化的記錄向文本、語音、圖像視頻等豐富的形式發展。這就是大數據的三個最典型的特征。

傳統的結構化數據處理過程是:在線交易系統(OLTP,通常是關系型數據庫)產生的數據,經過Federation/ETL工具整合清洗后,加載到在線分析系統(OLAP,通常是數據倉庫、BI與統計分析),然后生成報表或統計模型。大數據的三個V對吞吐量、響應時間的要求都超越了這個成熟的模式的技術上限。因而催生了大量的能處理海量數據的新框架。

這些新框架沿著兩個思路解決吞吐量與響應時間的問題:垂直擴展(scale up)或 水平擴展(scale out)。垂直擴展門檻高,技術為IBM之類的大公司所壟斷,而水平擴展則門檻相對較低,以源自Google公司的Map Reduce為代表,在開源的推動下迅速普及。著名的Apache Hadoop就是此類技術的代表,具備強大的生命力。

這些新框架多來自程序社區,其繁榮一度讓人們覺得可以淘汰數據社區SQL那套技術體系。隨著多種NoSQL 數據庫的廣泛應用,人們發現,數據的一致性,可用性與并行性三者不是可以同時獲得的,強化其中之一是以弱化另外一個要素為代價的。而且編程方式的數據使用缺乏一致的標準,造成諸多問題。因而,程序社區與數據社區的逐步融合成為趨勢選擇,NoSQL 發展成 Not Only Sql, 再到 NewSQL, 水平擴展的新型數據處理框架獲得了標準化的SQL訪問界面。

在很多場景下,分而治之的方式可以解決吞吐量的問題,單位時間內,增加更多的機器,可以增加處理的數據量,Volume的問題得到解決。而系統對于處理速度的不懈追求,則可以通過不斷拉近數據與處理器(CPU)的距離得到滿足,磁帶到硬盤,硬盤到SSD,SSD 到 Flash, Flash到內存,內存到一二級Cache, 再到寄存器。從內存數據庫到分布式Cache,再到Spark, 處理同等量的數據越來越快。

處理多樣性數據的系統也在與時俱進,對應數倉/BI時期的多媒體內容管理系統,多是以描述這些多媒體內容的元數據作為索引,訪問鏈接到這些內容數據。新分布式大數據處理框架下,則引入了文本分析,語音圖像的機器學習以至深度學習技術來“認識”這些內容,而不是簡單的存儲與訪問。基于互聯網海量內容的知識圖譜的構建也有大幅度進步。

Fintech數據處理

金融,一直是數據系統的重量級應用行業,信息化早,程度也高。隨著IBM ORACLE等巨頭在該行業深耕多年,金融機構大多在傳統的數據體系上有了較為完備的建設。OLTP交易系統、數據同步、整合與治理、數據倉庫/集市、BI 報表與統計分析,是相對完善的。不少的企業還實現了內容管理系統的建設使用。

互聯網企業在大數據上面構筑的數據資產壁壘,開發利用后獲取的競爭優勢,讓傳統的金融企業,特別是那些坐擁億萬客戶資源的金融企業,開始意識到大數據帶來的價值以及潛在的驅動與變革力量,逐步重視積累與發掘利用大數據資產,籍此提升企業的科技能力,獲取行業的競爭優勢。“數據陽光”就是陽光保險集團高瞻遠矚的重要戰略。

金融行業服從嚴格的數據安全與監管,對數據一致性近乎苛求。因而傳統的金融數據體系以可靠性與一致性為原則構建,強調事務處理,其中涉及到的分布系統也都具備兩階段提交(2PC)等分布式事務能力。起源于互聯網企業的大數據處理框架,則多選擇放松處理過程中的一致性要求,提升系統并行能力與性能,僅追求最終一致性。因而在金融數據體系中,分析型的系統相對交易系統,更適合采用這些框架。

風險控制是金融企業核心能力,風控與征信變成金融大數據的主場景。獲取足夠的用戶行為數據,建立合理的評估模型,有助于企業在用戶金融活動的整個生命周期規避風險,提升服務水平。現行的金融技術體系,無法從技術上確保交易主體間的相互信任,需要依賴第三方征信主體參與,而鑒于數據碎片化、交易壁壘與隱私保護等因素,基于大數據的征信,目前以至未來很長時間,還有較大的改進空間。

區塊鏈技術的繁榮,以及與金融科技的逐步融合,有巨大的潛力改變現有的金融數據體系。區塊鏈被認為是技術保證信任的價值網絡,或者說是業務互聯網。業務實體可以相互信任的處理之間的金融交易,而無需中心征信機構的參與。鏈上的數據以加密方式參與分布式事務/容錯(Paxos/PBFT),確保不可篡改的一致性。強的分布式與一致性,需以犧牲系統性能為代價,因而較為適合替代現有金融系統中的數據骨干網絡。而對于類似每秒10幾萬次交易的支付系統則是不適合的。

云支撐大數據

大數據是資源密集型的系統,對于存儲、計算、網絡等核心IT資源需求強勁,自然成為云計算最佳支撐領域。目前主流的云平臺都配有自成體系的大數據系統,滿足企業大數據處理端到端的需求,也就是從數據采集獲取、同步加載、整合清洗、安全管控、分析建模、可視化、機器學習、深度學習一整套支撐工具與系統。多數基于開源的體系定制并優化,典型的如亞馬遜AWS 上的EMR,微軟Azure上的HDInsight等, 都基于Apache Hadoop。 這些能力通常具有非常強的伸縮性,多租戶共享,適應企業忙時閑時的不同需求,并且按照用量計費,用多少付多少費用。這些系統和工具多以平臺即服務(PaaS)+ 設施即服務(IaaS)方式在公有云上提供。

考慮到不少企業,特別是金融企業的數據體系,具有非常強的數據安全與監管要求,不少云平臺提供商將其公有云上的數據能力,也整合打包到其相應的私有云商業軟件套件之中,例如微軟私有云套件,阿里云私有云中的大數據平臺等。這些商業軟件套件按照企業用戶的要求,部署到企業自建自營的數據中心中,提供類似公有云上的端到端的數據能力。企業用戶獲得了對平臺、對數據自主控制的能力,損失了相應的彈性與及時更新。

云計算技術已進入普及階段,寡頭產生。國際巨頭亞馬遜、微軟、IBM紛紛落地中國,阿里,騰訊等幾家云計算也強勢崛起。這些主流的云平臺除了提供通用的大數據能力之外,還紛紛針對金融企業的特殊性推出相應的金融云服務,這里包括金融業務系統以及相應的數據保護、安全防攻擊等等,不同層級的軟硬件隔離或共享的策略,滿足不同的安全意愿。相應的服務日趨健全,例如新籌建保險公司,金融云可以與籌建團隊一起滿足保監會在IT與數據層面的籌建要求。

目前國內大型企業多采用公有云與私有云相結合的混合云方式,將核心的數據系統控制在自家的數據中心中,將部分前端業務系統與外圍業務系統部署到公有云上,以獲取一定的彈性與靈活性,節約成本。

從技術層面講,目前主流云平臺多以提供資源的虛擬化為基礎,將存儲、CPU、內存、網絡以虛擬機或容器的方式實現邏輯隔離,基于邏輯上的隔離共享與調度支持上層的數據處理體系,如數據倉庫、分布式大數據框架(Hadoop, Spark等)、機器學習模型與算法等。并且依據大數據應用負載的不同,針對計算密集,磁盤IO密集或網路IO密集的不同特點,做不同的優化,甚至拋開虛擬化,直接在硬件系統上部署大數據框架。

人工智能平臺

年過半百的人工智能,經歷兩次發展低谷到近十年來再次爆發,與大數據在深度與廣度上的積累,以及相關處理技術的長足進步密不可分。人工智能依賴機器學習,垂直領域不斷豐富的數據積累,為機器學習提供了原材料;開源的水平擴展的大數據框架為各種復雜的機器學習算法提供了價格低廉的算力,從而推動了人工智能在包括搜索、廣告、語音識別、圖像識別、自然語音理解等等領域的質的飛躍。

機器學習就是發現用來學習的數據集里面隱含的規律的過程,簡單情況下,可以將這種隱含的規律描述為某種數學函數,給定某些輸入,可以得到某些輸出。但大部分時候,機器學習的結果無法直觀表達為函數,而是一個可以運行的計算模型,從此種意義上看,是數據產生了程序邏輯,以前這些邏輯只能由程序員編碼實現。目前這些機器學出來的模型廣泛應用在許多不同領域,來做分群、分類或者預測。

作為機器學習的一個重要前沿分支,深度學習技術在語音與圖像識別、自然語言處理,概念與內容理解等方面帶來實質性重大技術進步,已成為大數據價值轉化商業財富的有效手段。Google,微軟,Facebook,百度等科技巨頭在深度學習領域持續取得進展,研發成果也以開源的方式分享出來,例如Google的Tensorflow, 微軟的CNTK 等優秀的深度學習框架,以及海量的標注數據。這些工具對Hadoop, Spark等開源大數據框架提供了良好支持,顯著降低了企業應用深度學習的門檻。

作為機器學習成果的綜合試驗場,移動設備上的智能聊天機器人(或稱私人助手)大熱。蘋果Siri, Google Now, 微軟Cortana都可以學習用戶行為習慣,理解語義語境,與用戶人機對話。這些聊天機器人吸引并沉淀了大量用戶,成為新的人機交互入口。Facebook,Google與微軟更是順勢推出 Bot Engine/Bot Framework等機器人引擎,其背后是云端的認知服務體系,一套也可做語音識別、自然語言理解、語音合成、視覺識別、情感分析、面部識別、視頻檢測,搜索等功能的人工智能平臺。廠商將這種智能的人機交互能力以機器人引擎加人工智能平臺的方式開放出來,用來構建龐大的生態系統。

綜上所述,隨著企業與互聯網數據技術不斷融合,大數據平臺技術呈現出兩大發展脈絡:(1)沿著從依托編程、專注物理底層邏輯,到深度依賴數據、數據產生業務邏輯的脈絡不斷進化。(2)新型的人機交互方式,則將大數據平臺技術能力服務化,而平臺支撐的機器學習算法的革新,則為這種服務持續賦予智能。可以預見,不遠的將來,智能化大數據平臺將成為公司數字化經營決策的中樞神經,每一個公司都會有自己的數字大腦。

責任編輯:未麗燕 來源: 數據陽光
相關推薦

2022-08-18 17:21:51

人臉識別

2024-01-19 08:04:13

2013-04-27 10:37:23

大數據全球峰會大數據安全

2016-10-24 10:46:47

大數據

2023-01-16 14:56:00

Graph圖數據庫

2009-11-18 15:58:05

PHP技術

2018-03-21 06:47:02

移動通信5G互聯網

2014-06-09 17:14:15

數據中心

2018-05-10 16:24:45

數據庫發展趨勢

2011-07-15 20:22:13

數據中心技術道路之爭

2019-08-01 12:41:22

2009-04-30 15:22:25

JDBCODBCAPI

2015-11-16 09:54:02

大數據機器人技術趨勢

2009-11-03 13:35:31

NGN接入技術

2009-11-05 14:10:42

IT技術

2015-10-29 10:08:58

2024-01-11 15:27:53

人工智能數字孿生量子計算

2009-12-24 16:21:33

WiMax技術發展

2009-10-26 12:56:11

寬帶無線接入技術

2016-05-13 15:13:02

平安城市
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.亚洲| 在线观看亚洲欧美 | 欧美精品久久久久 | 自拍偷拍中文字幕 | 精品国产一区二区国模嫣然 | 免费欧美| 91原创视频 | 欧美一级淫片免费视频黄 | 99精品久久久久久久 | 日韩一区二区三区av | 亚洲精品久久久久久一区二区 | 久久艹av| 成人国产精品久久 | 国产精品成人一区二区 | av中文字幕网站 | 久久se精品一区精品二区 | 97久久精品午夜一区二区 | 国产精品久久久久一区二区三区 | 欧美亚洲另类丝袜综合网动图 | 9久久精品 | 亚洲精品久久久久久久久久久久久 | 国产黄视频在线播放 | 日韩欧美成人一区二区三区 | 欧美综合精品 | 欧美黄色性生活视频 | 日韩综合一区 | 欧美成人精品欧美一级 | 久久久www成人免费无遮挡大片 | 色播久久 | 国产免费又黄又爽又刺激蜜月al | 卡通动漫第一页 | 一本一道久久a久久精品综合 | 亚洲视频第一页 | 中文字幕在线观看 | 国产高清精品一区二区三区 | 精品久久久久久亚洲精品 | 看羞羞视频 | 91日b| 久久精品久久久 | 久久久久久天堂 | 黄色一级电影免费观看 |