成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

聽Cloudera首席架構(gòu)師Doug Cutting談Hadoop與人工智能

原創(chuàng)
人工智能 深度學(xué)習(xí) Hadoop
Doug Cutting是開源界的技術(shù)大神,無(wú)論是2000年的Lucene,還是后來(lái)基于Lucene衍生的企業(yè)級(jí)搜索項(xiàng)目Solr以及ElasticSearch,當(dāng)然還包括后來(lái)風(fēng)靡全球的Hadoop,他經(jīng)手的每個(gè)開源項(xiàng)目都影響甚廣并表現(xiàn)出色,盡管筆者不是長(zhǎng)期奮戰(zhàn)在技術(shù)一線的程序員,但也久聞大名,這次采訪讓筆者期待已久。

【51CTO.com原創(chuàng)稿件】Doug Cutting是開源界的技術(shù)大神,無(wú)論是2000年的Lucene,還是后來(lái)基于Lucene衍生的企業(yè)級(jí)搜索項(xiàng)目Solr以及ElasticSearch,當(dāng)然還包括后來(lái)風(fēng)靡全球的Hadoop,他經(jīng)手的每一個(gè)開源項(xiàng)目都影響甚廣并在其中表現(xiàn)出色,盡管筆者不是長(zhǎng)期奮戰(zhàn)在技術(shù)一線的程序員,但也久聞大名,這次采訪讓筆者期待已久。

[[197428]] 

關(guān)于Hadoop

談及Hadoop的誕生,Doug Cutting在大家面前露出了驚喜的神色。他表示,當(dāng)初僅僅是為了完成手上的項(xiàng)目,確實(shí)沒有想到一旦創(chuàng)建出這個(gè)技術(shù)后,會(huì)有如此之廣的用途。例如當(dāng)時(shí)沒有預(yù)見能夠在制造、銀行、電信這么多的行業(yè)廣泛應(yīng)用,最初僅僅認(rèn)為也就是主要用于搜索引擎和網(wǎng)站創(chuàng)建上,算是意外之喜了。“最讓我驚喜的是,圍繞Hadoop以及基于Hadoop的所有項(xiàng)目以及技術(shù)并不是單獨(dú)存在的,而是以多種技術(shù)為基礎(chǔ)所組成的系列家族,并且整個(gè)技術(shù)體系還在不斷發(fā)展和演進(jìn)中,換句話說圍繞著Hadoop現(xiàn)在已經(jīng)形成了非常強(qiáng)大的生態(tài)系統(tǒng),這種生態(tài)系統(tǒng)的演進(jìn)和發(fā)展并不受制于其中任何一種技術(shù)。”Doug Cutting補(bǔ)充道。

談到Hadoop在我國(guó)的發(fā)展壯大,確實(shí)可以看到我國(guó)市場(chǎng)和Hadoop之間有一個(gè)非常自然的契合和匹配。從數(shù)據(jù)的角度來(lái)說,我國(guó)可能是世界上最大的單一市場(chǎng),擁有數(shù)據(jù)的數(shù)量和規(guī)模超過了世界上大部分其他國(guó)家,這也是Hadoop在我國(guó)有著非常成功的發(fā)展的原因之一,這種特殊的發(fā)展環(huán)境或許催生了我國(guó)Hadoop生態(tài)圈與其他國(guó)家的一些差別。

Doug Cutting說:“在中國(guó),很多Hadoop用戶習(xí)慣使用Hadoop的開源版本,而不需要去得到哪一家具體公司的支持和幫助。中國(guó)市場(chǎng)和美國(guó)相比,需要花更多時(shí)間對(duì)市場(chǎng)進(jìn)行教育和培育,也就是說從更加長(zhǎng)遠(yuǎn)的角度出發(fā),需要讓人們了解在使用這些軟件的過程中如果能夠得到有關(guān)方面的支持和幫助會(huì)有更佳的使用體驗(yàn)。這樣的市場(chǎng)教育在中國(guó)可能要花很長(zhǎng)時(shí)間,但對(duì)于Hadoop在中國(guó)的發(fā)展前景我滿懷信心。”

任何技術(shù)的完善都要在不斷的發(fā)展中萌生創(chuàng)新的活力,Hadoop也是如此。今年又是云計(jì)算市場(chǎng)風(fēng)起云涌的一年,探討云計(jì)算對(duì)Hadoop的影響,Doug Cutting有自己的想法。“我認(rèn)為云計(jì)算或云模式使客戶在使用Hadoop的方式上具有了更大的靈活性,例如可以在云環(huán)境中使用Hadoop。如果用本地安裝運(yùn)行的形式使用Hadoop,往往要?jiǎng)?chuàng)建一個(gè)單一的大集群來(lái)支持各種不同的應(yīng)用,并且需要擁有一個(gè)統(tǒng)一的數(shù)據(jù)拷貝;如果在云環(huán)境中運(yùn)行Hadoop,數(shù)據(jù)會(huì)在亞馬遜存儲(chǔ)之類的系統(tǒng)中,云環(huán)境供應(yīng)商已經(jīng)幫助管理了數(shù)據(jù)拷貝。此外,在云環(huán)境中使用Hadoop,客戶可以針對(duì)不同的應(yīng)用創(chuàng)建不同的集群,這樣的集群開關(guān)或者規(guī)模伸縮等都可以按需進(jìn)行,對(duì)于客戶來(lái)說,應(yīng)用更好被控制,同時(shí)也增加了靈活性。

如果從整個(gè)IT長(zhǎng)遠(yuǎn)的發(fā)展趨勢(shì)看,過去一個(gè)企業(yè)中的IT往往是集中在一個(gè)部門,但現(xiàn)在很多企業(yè)的數(shù)據(jù)和數(shù)字技術(shù)是在整個(gè)企業(yè)中擴(kuò)散并被使用,各個(gè)非IT部門具有越來(lái)越大的能力在IT方面進(jìn)行自我管理、自我服務(wù),越來(lái)越多的工具能夠幫助做到這一點(diǎn),不得不說云計(jì)算促進(jìn)和推動(dòng)了這一趨勢(shì)的發(fā)展。

由于云計(jì)算的出現(xiàn)使一個(gè)公司中非IT部門,例如運(yùn)營(yíng)、制造、市場(chǎng)營(yíng)銷部門能夠自行采購(gòu)一些服務(wù)并且加以運(yùn)行,控制能力和靈活性都比以往大大增強(qiáng),所以云計(jì)算本身也是促進(jìn)了IT和數(shù)據(jù)的分散化、自助化,一改過去那種集中化的模式。采訪中,筆者也針對(duì)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)以及Hadoop針對(duì)小數(shù)據(jù)量應(yīng)用的問題請(qǐng)教了Doug Cutting。

51CTO記者:如今,有的數(shù)據(jù)專家趨向于將Hadoop作為數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的補(bǔ)充,這個(gè)問題您怎么看待?

Doug Cutting:就數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)而言,實(shí)際上我們可以把整個(gè)數(shù)據(jù)倉(cāng)庫(kù)都建立在Hadoop上。五年前,我們與Ralph Kimball博士,他是數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)主要的創(chuàng)建人,一起弄明白也證實(shí)了可以完全基于Hadoop來(lái)建立數(shù)據(jù)倉(cāng)庫(kù),而且也有很多用戶確實(shí)是把自己的數(shù)據(jù)倉(cāng)庫(kù)完全建立在Hadoop基礎(chǔ)上。

當(dāng)然,就建立數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)而言,有其他的一些技術(shù)或者工具與Hadoop相比,存在的時(shí)間更長(zhǎng),事實(shí)上對(duì)于這些時(shí)間更加長(zhǎng)久的技術(shù),Hadoop并沒有能完全具備其中所有的功能與性能。但即便如此,很多用戶還是選擇將他們的數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建在Hadoop架構(gòu)上,為了能夠?qū)崿F(xiàn)更加優(yōu)越的可擴(kuò)展性、更高的性價(jià)比以及更好的靈活性。

對(duì)于一些初創(chuàng)企業(yè)來(lái)說,他們會(huì)用Cloudera Hadoop來(lái)構(gòu)建整個(gè)數(shù)據(jù)倉(cāng)庫(kù);對(duì)于一些其他類型的公司,如果他們已經(jīng)具備傳統(tǒng)技術(shù)架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù),他們也會(huì)采用Cloudera Hadoop,也就是將他們傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中的一部分工作負(fù)載遷移到Cloudera Hadoop的平臺(tái)上。對(duì)于這樣的公司來(lái)說,實(shí)際上他們擁有了一個(gè)更大的數(shù)據(jù)倉(cāng)庫(kù),擁有了更好的伸縮擴(kuò)展性并且能夠降低成本。當(dāng)然,對(duì)于已有基于傳統(tǒng)技術(shù)的數(shù)據(jù)倉(cāng)庫(kù)的公司來(lái)說,如果要把所有的工作負(fù)載都遷移到Cloudera上是有困難的,因?yàn)楹线m性與兼容性的問題,部分遷移還是可以完成的。

51CTO記者:對(duì)于一些數(shù)據(jù)量極小的應(yīng)用,有的人認(rèn)為用Hadoop是“殺雞用牛刀”,您對(duì)此如何理解?

Doug Cutting:是不是“殺雞用牛刀”,主要看用戶完成任務(wù)的過程中需要使用怎樣的工具,有時(shí)候也許在規(guī)模上、擴(kuò)展性上超出了需求,但仍然能夠帶來(lái)靈活性的優(yōu)勢(shì)。例如使用基于Spark的機(jī)器學(xué)習(xí)工具,有些時(shí)候用戶仍然發(fā)現(xiàn)Hadoop平臺(tái)對(duì)于他們完成任務(wù)非常有用,雖然規(guī)模可能過大;實(shí)際應(yīng)用中也發(fā)現(xiàn)在很多應(yīng)用當(dāng)中即使是規(guī)模很小的集群,比方說5個(gè)節(jié)點(diǎn)的集群,客戶也發(fā)現(xiàn)使用Hadoop與其他技術(shù)選項(xiàng)相比能夠產(chǎn)生更好的產(chǎn)出,帶來(lái)更多的價(jià)值與競(jìng)爭(zhēng),當(dāng)然我們并不認(rèn)為Hadoop是一種通用的工具,能夠解決所有問題。

除了Hadoop和spark之外,在開源領(lǐng)域Doug Cutting還比較關(guān)注Kudu。Kudu是表現(xiàn)強(qiáng)大的存儲(chǔ)引擎,既具備了像Hbase隨機(jī)訪問的很強(qiáng)的知識(shí)能力,同時(shí)又具備HDFS的快速查詢能力,兼而有之;另外就是Kafka,Kafka有很強(qiáng)的實(shí)時(shí)應(yīng)用支持能力和流處理能力,據(jù)了解,Cloudera已經(jīng)把這兩大技術(shù)采納到平臺(tái)中更好地滿足我們客戶的需求。“我們也在構(gòu)建一些更多的Spark機(jī)器學(xué)習(xí)的工具,與之相關(guān)的一個(gè)項(xiàng)目是Apache Spot,它表現(xiàn)了網(wǎng)絡(luò)安全的能力,幫助我們的客戶免遭黑客的攻擊,這是我們?cè)贖adoop和Spark基礎(chǔ)上進(jìn)一步的推進(jìn)。”Doug Cutting說。

關(guān)于人工智能

如今人工智能的火熱程度已經(jīng)很難用語(yǔ)言來(lái)形容了,對(duì)于人工智能、大數(shù)據(jù)以及Hadoop,Doug Cutting強(qiáng)調(diào):“我覺得Hadoop和AI之間是非常適合、非常匹配的一項(xiàng)技術(shù),因?yàn)锳I本身就是一種大數(shù)據(jù)的應(yīng)用,特別是在對(duì)于AI系統(tǒng)進(jìn)行訓(xùn)練的時(shí)候,使用的數(shù)據(jù)越多,AI系統(tǒng)就越先進(jìn)。上周Google發(fā)表了一篇文章,主要講的是AI的圖象識(shí)別,也就是說在用數(shù)以十億計(jì)的圖象識(shí)別的深度智能系統(tǒng)進(jìn)行培訓(xùn)的基礎(chǔ)上,仍然是使用的數(shù)據(jù)越多、圖片越多,這種深度學(xué)習(xí)圖象識(shí)別的能力就越強(qiáng),也就是說對(duì)于人工智能系統(tǒng)進(jìn)行訓(xùn)練使用的數(shù)據(jù)量越大,人工智能系統(tǒng)的質(zhì)量就越高,從這個(gè)意義上來(lái)說AI本身也是一種大數(shù)據(jù)應(yīng)用。”筆者最近接觸了很多有關(guān)AI的言論以及產(chǎn)品,就知識(shí)圖譜以及深度學(xué)習(xí)請(qǐng)Doug Cutting談了談自己的看法。

51CTO記者:因?yàn)?012年谷歌推出了知識(shí)圖譜,現(xiàn)在越來(lái)越得到行業(yè)的認(rèn)可。以知識(shí)圖譜為代表的知識(shí)工程也越來(lái)越得到關(guān)注,請(qǐng)問這種以知識(shí)圖譜作為推動(dòng)人工智能發(fā)展和落地的重要工具、技術(shù)手段的看法,您是怎么理解?

Doug Cutting:首先就知識(shí)圖譜、知識(shí)工程而言,在推動(dòng)人工智能的過程中,在我看來(lái)這種知識(shí)圖譜、知識(shí)工程的方法沒有統(tǒng)計(jì)學(xué)方法那么成功。早在八十年代,知識(shí)工程就已經(jīng)非常流行了,那時(shí)我還是學(xué)生。如今深度學(xué)習(xí)取得的成功主要依靠的是統(tǒng)計(jì)學(xué)的方法,也就是基于巨量數(shù)據(jù)的各種模型的訓(xùn)練,而不是通過知識(shí)工程的方式,在圖像識(shí)別、語(yǔ)音識(shí)別以及分類任務(wù)的完成上取得了很大進(jìn)展。當(dāng)然我也不是說像知識(shí)圖譜、知識(shí)工程的方式在人工智能發(fā)展過程中永遠(yuǎn)不會(huì)成功,只是目前的現(xiàn)狀不如統(tǒng)計(jì)學(xué)的方法更加有效。

51CTO記者:您認(rèn)為深度學(xué)習(xí)還存在什么樣的缺陷?

Doug Cutting:對(duì)于深度學(xué)習(xí)進(jìn)一步發(fā)展的挑戰(zhàn),我認(rèn)為最大的一個(gè)挑戰(zhàn)就是深度學(xué)習(xí)的有用性、適用性、廣度到底有多大。目前在一些認(rèn)識(shí)、識(shí)別任務(wù)的完成中,深度學(xué)習(xí)非常有效,例如在大量的噪音或者是干擾的因素中進(jìn)行清晰的識(shí)別、分類、標(biāo)簽,深度學(xué)習(xí)做得非常好;但有很多其他類型的任務(wù),對(duì)形勢(shì)進(jìn)行分析并做出決策,并不是完全依靠這種能力。雖然目前人們對(duì)于深度學(xué)習(xí)能夠完成很多其他任務(wù)這個(gè)定位是非常樂觀的,但我希望這樣的樂觀不會(huì)是一種過度的樂觀。

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】

責(zé)任編輯:杜寧 來(lái)源: 51CTO
相關(guān)推薦

2014-10-28 09:56:56

Hadoop

2014-11-25 11:36:18

開發(fā)技術(shù)周刊

2016-06-16 17:13:59

Hadoop

2011-03-11 15:38:08

Java

2021-02-25 10:23:01

人工智能科技機(jī)器學(xué)習(xí)

2023-04-06 07:20:31

人工智能云計(jì)算架構(gòu)師

2023-10-17 09:42:34

2016-08-09 09:22:52

英特爾Cloudera

2020-10-29 10:27:29

人工智能技術(shù)數(shù)據(jù)

2024-09-20 15:48:06

2022-06-08 10:29:28

人工智能機(jī)器人

2025-05-23 06:15:27

2025-05-30 00:20:00

數(shù)據(jù)架構(gòu)師人工智能AI

2012-11-07 13:31:53

Hadoop大數(shù)據(jù)

2021-08-03 10:23:26

人工智能AI數(shù)字化轉(zhuǎn)型

2020-12-03 11:07:17

AI芯片

2021-12-09 15:03:10

人工智能AI人類思維

2016-02-16 14:30:00

HadoopDoug Cuttin大數(shù)據(jù)

2022-02-08 14:03:11

區(qū)塊鏈人工智能物聯(lián)網(wǎng)

2017-05-02 13:45:14

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲欧美激情国产综合久久久 | 欧美激情a∨在线视频播放 成人免费共享视频 | 久久久久久久久国产成人免费 | 国产亚洲精品精品国产亚洲综合 | 四虎永久在线精品免费一区二 | 成人在线视频一区 | 中文字幕在线视频免费观看 | 91av在线不卡 | 亚洲一区在线日韩在线深爱 | 欧美日韩不卡合集视频 | 91精品国产麻豆 | 国产综合网站 | 香蕉视频黄色 | 国产精品久久久久久亚洲调教 | 狠狠夜夜 | 四虎最新地址 | 日韩中文字幕免费在线 | 欧美日本一区二区 | 国产精品不卡 | 久久久久久黄 | 国产精品一区二区免费看 | 玩丰满女领导对白露脸hd | 日韩手机在线视频 | 日日操视频 | 久久国产精品一区 | 欧美日韩一区在线观看 | 久久久精 | 中文字幕一区在线 | 亚洲成人三级 | 男女激情网站免费 | 91久久精品国产 | 国产九九精品视频 | 九九热在线精品视频 | 国产日韩精品久久 | 国产www成人 | 97国产一区二区精品久久呦 | 国产成人免费视频 | 在线看国产 | 国产精品久久 | 粉嫩粉嫩芽的虎白女18在线视频 | 精品视频一区二区 |