成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據也許不是你想象的那么智能?

云計算
引用來自摩根大通公司一位常務董事的評價,數據已經成為“企業的命脈”。他是在最近剛剛舉辦的一場重要技術會議(以數據為主要討論對象)上拋出這番言論的,本次會議還深入解析了各機構走向“數據驅動”之路的途徑。

大家也許還沒意識到,但實際上數據的重要意義已經不局限于計算機系統當中的關鍵性要素——數據已經在各個領域開枝散葉、成為維系整個世界的樞紐。

引用來自摩根大通公司一位常務董事的評價,數據已經成為“企業的命脈”。他是在最近剛剛舉辦的一場重要技術會議(以數據為主要討論對象)上拋出這番言論的,本次會議還深入解析了各機構走向“數據驅動”之路的途徑。

《哈佛商業評論》雜志稱“數據科學家”將成為“二十一世紀最性感的職位”。在這篇刊發的文章中,作者詳細描述了Netflix如何采集每位用戶所進行的每一項操作,并將我們“從快樂的用戶轉化成無意識的傀儡”。文章還告誡大家稱“海量數據分析與處理已經成為現實,且有愈演愈烈之勢。”

不顧后果、毫無章法地使用“大數據”概念

前面提到的所有文章都在極力鼓吹大數據的優勢與威能,并希望借此實現大數據的宣傳、營銷或者盈利目標——毫無疑問,大數據已經成為今年最耀眼的技術發展趨勢。如果讀者朋友自己是技術人士,應該會明顯感覺到如今這個時代開口不談大數據簡直沒臉跟同仁打招呼。但與此同時,大家似乎對這個話題都說不出個所以然,因為沒幾個人能真正說清大數據是個什么玩意兒。呃,其實這一結論也有點武斷。嚴格來說,目前的大數據概念主要從屬于幾股以產品為載體的派別:

• 由于業界大佬谷歌、Facebook及Amazon對于信息的極度渴求,處于爆炸式增長中的新數據被批量收集起來(包括存儲、處理以及分析)。

• 信息的多元化特性愈發顯著,這一狀況源自網上購物、Facebook狀態更新、tweet內容、圖片共享以及各類登記資料等等。

• 整個業界都在渴求一種能夠將如此龐大數據盡快、盡可能高效打理好的方案。

然而大數據概念似乎正被不顧后果、毫無章法地過度使用;即使偶爾使用方法對路,其適用范圍也并不像技術人員想象的那么寬泛。

前面提到的三種派別都是真實存在的。谷歌公司正在極力攫取來自各類資源的每一字節信息內容,試圖為盡可能多的用戶創建與其使用習慣相匹配的配置文件。(這種思路無疑是把雙刃劍:就以Google Now為例,它會以‘在客戶發現需求前推薦合適的產品’為借口大肆進行廣告宣傳——但在這里我們不打算討論道德層面的問題。)

很顯然,這種源自各類源頭的數據信息不會以規則的形式存在。因此谷歌公司可能需要一套獨特的處理工具集來打理這些數據,至少這類方案不同于過去存在的任何數據數量及類型。

目前聲名最盛的兩大工具分別為Hadoop——一款非關系型分布式數據庫框架——與MapReduce——一套由谷歌公司開發的算法集合,旨在將來自各類資源的多元化數據整理為獨立的一套鍵/值對。通過Hadoop與MapReduce,谷歌能夠將海量數據集合拆分為可以管理的數據塊,并通過服務器群獨立處理這些非狀態化數據塊。

這一切真能成為現實嗎?在無需復雜的預處理過程的前提下將原本無法輕松、快速管理的大數據集合通過關系型數據庫打理好?有可能。 #p# 

谷歌公司的特殊需求

MapReduce真如傳聞中那樣有能力承載數據合并技術之王、游戲規則改寫者的桂冠嗎?答案幾乎是否定的:谷歌公司此項專利技術的合法性一直備受質疑,而且不少現有產品都能夠以更簡單的方式輕松實現相同的功能。目前谷歌在網絡上公布的基本MapReduce實例只有幾十行Java代碼,從這些內容上看我們找不到任何革命性的理念及突破。

但我們姑且假設谷歌公司需要這些工具來滿足自身非常獨特的需求,換言之,我們不妨假定各類現有工具及數據庫框架還不足以實現谷歌的技術雄心。在這種情況下,大數據顯然并不能成為適用于所有機構、適合處理所有海量計算機應用的方案。盡管大數據支持者們始終堅信這一點,但我們對于此類新型數據庫及軟件模型尚無法寄托如此級別的厚望。

大量數據,甚至是海量數據的不斷涌現也早已算不上什么新鮮事。在投資銀行領域,高頻交易系統始終需要以微秒為時間單位處理眾多交易事務;市場數據引擎多年來也一直需要以秒為單位存儲并處理成千上萬價格標記。

再來說說我的朋友Ken Caldeira,他在斯坦福大學卡內基研究所里埋頭鼓搗氣象科學。正如預料,我發現他經常需要與“PB級數據”打交道。我另一位曾在華爾街接受過數據分析工程培訓的物理學家同事則在2000年之后花了長時間搞基因組研究,根據他的說法整個研究過程中存在“數據驚人的數據需要進行分析”。

在大數據的時代,前所未有的龐大數據集經常被引用、幾乎每個人都或多或少與之有所接觸,而上一代工具面對如此規模的工作量顯得非常無力。

但在大多數情況下,Caldeira和我的數據分析專家朋友還在使用……Python腳本與C++來解決問題。沒錯,確實有不少大數據用戶目前在使用大規模并行架構、集群及云計算實現處理工作,但這種做法已經出現了十年以上;而且如我的朋友所指出,“人們常常分不清自己在云中做出的成果跟他人有何區別,這是因為云環境下的數據無法明確區分出不同開發者做出的貢獻。”利用分布式數據庫來贏得更快的速度與更安全的冗余機制對于每位用戶都非常重要,至少能夠幫助我們顯著壓縮現有硬件成本。

你能想象自己信賴的銀行在tweet及Facebook博文中計算賬戶信息嗎?

另一種引發大數據算法變革的因素在于不同類型數據的爆炸式增長。正如前文所述,谷歌與Facebook等公司需要為配置文件或來自各類資源的統計信息進行創建及處理工作,更令人頭痛的是這些信息的格式同樣多種多樣。當然,并不是每位用戶都面臨著這樣的問題。當人們討論這些新型、凌亂繁雜的非結構化數據時,他們大多數情況下指的都是來自社交網絡及博客平臺的信息。

銀行領域所使用的核心系統(在處理交易事務方面,老式關系類數據庫仍然占據著絕對的統治地位)真的需要接觸到社交媒體數據嗎?庫存系統、數字目錄或者癌癥研究人士所使用的系統呢?我們還需要考慮,如果數據出于某種原因而無法通過分布式、無狀態的方式處理,大數據技術又能起什么作用?

高度非結構化數據仍然占據著專門但規模相對有限的利基市場,但其表現與地位則相當搶眼。與當下常見的系統不同,大數據技術不需要對來自各類資源的合并數據提前進行解析、翻譯或者預處理。

如果某家公司在多年之后突然認為自己需要大數據技術來讓業務更進一步,則意味著他們一定在業務領域迎來了根本性轉變、開始走向與之前的經營方式完全不同的發展道路——很顯然,即使是在極端情況下上述假設也很難成立。 #p# 

讓你的系統具備可擴展性,一夜之間大數據就可能來到身邊

大數據這個概念常常被過度濫用,要么就是被完全錯誤理解。對于某個特定應用程序中數據量的增加而言,無論這種增長幅度有多么迅猛,我們都不能就將其稱之為大數據應用。我們需要做的是對這套系統進行擴容,而這個過程根本沒那么復雜——只需做一些設計調整,如果系統本身就預留了擴展設計,連調整都不需要。

以計算機為基礎的文本分析工作則始終處于發展之中。記得二十世紀七十年代就有學者在對莎士比亞的戲劇作品進行分析,希望找出其特定單詞出現的頻率與模式——當時我就被深深吸引住了。如果說如今的大數據有什么新突破的話,可能就是將這項工作擴展到范圍更大、數量更巨的文本內容中來。

如果這些文本在20年前就已經出現,而我們要在當時對其規律與模式進行摸索,那簡直是不可能完成的任務。科學家們紛紛搖頭甩手,表示“我們已經有技術基礎了,只是無法真正實現。”即使是在仍不了解這些分析工作細節的今天,我發現研究人士仍然很難通過完全不同于傳統排序及搜索思路的方式構建代碼算法。可以說大數據在這方面并沒有帶來什么開創性成就。

如果DVD光盤租賃公司能夠在上世紀九十年代抓住這類細節信息,他們可能會很樂于積極捕捉并加以分析。這種令人不安的趨勢引出一個問題:電影租賃公司在擁有這種能力后會如何加以利用、怎樣將其轉化為利潤或者給企業之間的合作帶來哪些影響?這些數據就像拼圖中的圖塊,能夠解開這道謎題將使得企業擁有絕對的主動權。

“數據”并沒有在一夜之間就成為萬惡之源,最多只能說是一躍成為新時代的另一種重要資源。我們既不應該過分迷信大數據、將現有非大數據技術馬上棄之不顧,也不應該將一切問題都推在大數據身上。很顯然,傳統技術不會瞬間“過時”、新技術也無法一手遮天。

責任編輯:王程程 來源: 至頂網
相關推薦

2015-06-24 10:32:13

訊鳥云計算會展

2020-09-30 10:40:56

人工智能AI

2021-08-18 10:45:44

網絡AI智能

2017-08-09 14:49:03

WebHTTPS瀏覽器

2016-06-08 13:42:08

2014-03-14 09:35:56

內存優化軟件內存優化

2014-03-31 15:32:36

AndroidNDK開發

2023-07-30 16:09:38

數字經濟數字化轉型

2018-09-25 11:58:10

大數據機器學習Spark

2010-01-18 10:27:20

2018-03-31 08:12:00

iPad蘋果谷歌

2013-02-22 10:04:37

大數據智能數據驅動

2022-02-18 14:25:28

人工智能機器人技術

2018-07-30 09:00:49

技術管理實踐

2015-09-06 13:31:50

2022-08-01 10:31:40

KubernetesIPLinux

2023-07-28 14:41:07

技術方案

2018-12-18 09:14:13

區塊鏈開源比特幣

2016-10-13 13:43:04

WebPGoogleJPEG和PNG格式

2023-12-04 07:18:05

Goswitch
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区日 | 日韩精品视频中文字幕 | 99reav | 91久久夜色精品国产网站 | 国产一级久久久久 | 久热精品在线播放 | 国产精品一区久久久 | 日本亚洲精品成人欧美一区 | 干干干操操操 | 国产午夜精品一区二区 | 国产99免费视频 | 日本免费在线观看视频 | 国产精品久久久久久久久久久久冷 | 在线播放国产一区二区三区 | 国产一级电影在线观看 | 国产成人精品免高潮在线观看 | 欧美午夜精品 | 国产美女精品 | 欧美自拍视频 | 久久国产精品久久久久久 | 欧美1区2区| 久艹网站| 日韩一区二区免费视频 | 日本中文字幕在线观看 | 日韩字幕 | 免费观看www | 亚洲播放一区 | 午夜精品三区 | 妞干网福利视频 | 国产免费一区二区三区网站免费 | 啪啪精品 | www.欧美 | 成年人在线观看 | 国产精品一区二区在线 | 中文字幕亚洲免费 | 国产日韩精品视频 | 一区在线播放 | 亚洲综合天堂网 | 国产精品毛片无码 | 免费v片在线观看 | 免费久久网站 |