成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)十問:落地、效率與開發(fā),如何齊頭并進(jìn)?

新聞 大數(shù)據(jù)
近日,英特爾大數(shù)據(jù)技術(shù)全球 CTO 戴金權(quán)老師圍繞「大數(shù)據(jù)」的十個問題給出了自己的觀點。

眾所周知,數(shù)據(jù)、算法與算力是人工智能發(fā)展的三駕馬車。

過去的十年,是基于深度學(xué)習(xí)的「AI 大飛躍」,各類創(chuàng)新算法的迸發(fā)不斷帶來新的焦點,算法突破成為 AI 研究者的集中攻堅地。

然而,與時俱進(jìn),人們不斷發(fā)現(xiàn):隨著深度學(xué)習(xí)的日新月異,單單算法的飛躍已經(jīng)無法滿足 AI 整體的前進(jìn)需求。算法 / 模型的長板,在數(shù)據(jù)、算力甚至應(yīng)用等因素的短板牽制下,也開始寸步難行。

這其中,一個典型的例子是大模型的發(fā)展——盡管 AI 領(lǐng)域的研究者都清楚大模型的性能優(yōu)勢與未來潛力,知道大模型開源對 AI 發(fā)展的遠(yuǎn)大意義,但卻繞不過大模型開源的一個兇猛的「攔路虎」:算力。

在數(shù)據(jù)端也同樣如此。不久前,AI 科技評論就報道過一項研究,其稱在 ??AI 研究??中,數(shù)據(jù)存量的增速遠(yuǎn)低于大模型訓(xùn)練數(shù)據(jù)集規(guī)模的增速;預(yù)計 2026 年之前,高質(zhì)量的數(shù)據(jù)源將會耗盡。

要知道,數(shù)據(jù)端的規(guī)模與質(zhì)量是決定 AI 模型最終性能高低與實際應(yīng)用表現(xiàn)的重要因素之一。比如,在近日大火的 AIGC 中,文本生成一側(cè)就受到數(shù)據(jù)端的限制與影響。在 2022 年,數(shù)據(jù)又重新進(jìn)入大眾視野。

那么,當(dāng)我們在說「大數(shù)據(jù)」的時候,我們應(yīng)該將目光投注到哪些關(guān)鍵的話題上?

近日,英特爾大數(shù)據(jù)技術(shù)全球 CTO 戴金權(quán)老師圍繞「大數(shù)據(jù)」的十個問題給出了自己的觀點。戴金權(quán)博士是英特爾的院士,也是大數(shù)據(jù)領(lǐng)域的國際知名專家,同時兼具研究與落地的雙向視角,其觀點頗有啟發(fā)。

在開始這場“大數(shù)據(jù)知識”盛宴之前,大家可以觀看這支3分鐘的精簡短視頻,快問快答形式讓您可以對本次訪談的重要片段先睹為快。

大數(shù)據(jù)究竟是什么?

顧名思義,大數(shù)據(jù)的關(guān)鍵核心,就是大量的數(shù)據(jù)。但同樣重要的是產(chǎn)生大量數(shù)據(jù)以后,對數(shù)據(jù)的存儲、分析處理、計算建模、人工智能等等一系列應(yīng)用,都可以算在大數(shù)據(jù)的范疇里。

大數(shù)據(jù)的“大”,首先指數(shù)據(jù)量比較大,最簡單也最有挑戰(zhàn)的問題是:當(dāng)我有這么大的數(shù)據(jù),怎樣進(jìn)行存儲?除了數(shù)據(jù)量大,對數(shù)據(jù)處理和計算的要求其實也是非常大的。這些都代表了大數(shù)據(jù)的大。

2

人工智能與大數(shù)據(jù):

先有雞還是先有蛋?

人工智能本身不是一個新概念。最近一次人工智能從某種意義上的復(fù)興,可能就是在2010年前后開始,以深度學(xué)習(xí)為代表的一系列的算法,能夠在很多原來做不到的應(yīng)用上帶來非常好的效果。其中一個很大的促進(jìn)作用,就是今天有了大量的數(shù)據(jù),在大量數(shù)據(jù)的基礎(chǔ)上去學(xué)習(xí)非常大的深度學(xué)習(xí)的模型,可以提高模型的準(zhǔn)確率,從而使得模型從原來的可能不能用,到今天可以被用了,它的準(zhǔn)確率達(dá)到一定的程度,這樣就推動了人工智能的發(fā)展。

3

AI與大數(shù)據(jù):落地更重要?

主持人:之前人工智能更關(guān)注性能,但最近人們更關(guān)注它的落地。對于大數(shù)據(jù),是否也存在類似的思維方式的轉(zhuǎn)變?

如何把人工智能技術(shù)從實驗室應(yīng)用到真實生產(chǎn)生活環(huán)境中,意味著兩點:

第一,它需要能夠和整個端到端的數(shù)據(jù)流很好的結(jié)合在一起,這樣才能真正對現(xiàn)實的生產(chǎn)生活產(chǎn)生影響;

第二,性能并不是孤立的,而要考慮整個端到端的性能,因為很多時候你的瓶頸在你的端到端數(shù)據(jù)流里面的不同的地方,怎樣把整個端到端的性能進(jìn)行優(yōu)化,這是很關(guān)鍵的。

舉個例子,我們和韓國SK電訊有個合作,他們要對通訊網(wǎng)絡(luò)進(jìn)行分析,了解網(wǎng)絡(luò)質(zhì)量如何,并用人工智能的模型來進(jìn)行判斷。他們可能在一個很大的城市里有幾十萬個基站,基站設(shè)備每秒鐘會產(chǎn)生非常多的網(wǎng)絡(luò)數(shù)據(jù)。這些數(shù)據(jù)在產(chǎn)生之后,要從分散在城市中的各個基站進(jìn)入到數(shù)據(jù)中心的大數(shù)據(jù)平臺里,然后進(jìn)行數(shù)據(jù)整理、分析、特征處理,然后去建模、訓(xùn)練,再根據(jù)模型去進(jìn)行推理,推理之后根據(jù)出來的結(jié)果,可能會得出某個地方的網(wǎng)絡(luò)質(zhì)量有問題等等。

在這里,“端到端”是從開始到結(jié)束,而且它是動態(tài)的、每秒都會產(chǎn)生,并不是產(chǎn)生一次就結(jié)束了。

4

英特爾大數(shù)據(jù)平臺BigDL的

作用及開發(fā)難點?

主持人:您在行業(yè)的代表性工作,就是關(guān)于大數(shù)據(jù)的平臺BigDL。能否請您簡單介紹一下BigDL到底是什么?

用一句話來說,BigDL是英特爾開源的一個“端到端”的大數(shù)據(jù)到AI的平臺、或者流水線。如我剛才所說,人工智能真正成功的重點,是怎樣把實驗室的算法、模型真正應(yīng)用到生產(chǎn)環(huán)境中。這就需要一個“端到端”的軟硬件平臺,能夠讓用戶很方便地做這件事情,這是做BigDL的目的。

開發(fā)這樣一個“端到端”大數(shù)據(jù)AI平臺,當(dāng)然也遇到了一些重要的挑戰(zhàn)。

第一,需要把AI和現(xiàn)有的大數(shù)據(jù)生態(tài)系統(tǒng)進(jìn)行無縫連接。傳統(tǒng)上,用戶很多時候要從大數(shù)據(jù)平臺里進(jìn)行數(shù)據(jù)拷貝,然后移到另外一個深度學(xué)習(xí)的集群上,但這樣其實非常不高效。因此需要AI和大數(shù)據(jù)平臺的無縫連接。

第二,如何從單機(jī)的環(huán)境轉(zhuǎn)到分布式的計算環(huán)境。大規(guī)模的分布式計算是支撐AI或大數(shù)據(jù)的關(guān)鍵,但這對于一般的數(shù)據(jù)科學(xué)家是一個非常大的挑戰(zhàn)。

通常來說,數(shù)據(jù)科學(xué)家寫完代碼,要把代碼扔過一堵無形的“墻”,墻那邊可能有個產(chǎn)品團(tuán)隊或工程團(tuán)隊,根據(jù)實際場景進(jìn)行代碼重寫。

而我們希望做到代碼不用重寫,原來能在筆記本上運行的代碼,只需改一兩行代碼就能無縫地在大規(guī)模分布式的環(huán)境中進(jìn)行運行,而實現(xiàn)這種方式有著極大的挑戰(zhàn)。

5

什么是開發(fā)與部署中間的“墻”?

大多數(shù)情況下,數(shù)據(jù)科學(xué)家或者AI研究人員所使用的編程的模式和硬件環(huán)境,與大規(guī)模部署的現(xiàn)實環(huán)境是并不一致的。作為數(shù)據(jù)科學(xué)家或AI研究者,我喜歡在自己的電腦上面把數(shù)據(jù)拷過來,然后在上面跑,并且在單機(jī)上把它的性能跑到最好、模型調(diào)得最好,這些是我關(guān)心的問題。

但在生產(chǎn)環(huán)境中,數(shù)據(jù)來源非常多,可能有不同的數(shù)據(jù)系統(tǒng)接入進(jìn)來,形成大數(shù)據(jù)流水線。然而,模型怎樣應(yīng)用到大數(shù)據(jù)流水線上,并不是研究人員關(guān)心的問題。比如我有一個大規(guī)模的至強(qiáng)集群,我的數(shù)據(jù)、數(shù)據(jù)處理都在其中,此時怎樣把AI接入到這上面,很多時候研究人員是不關(guān)心的。這就導(dǎo)致了原型開發(fā)和最終生產(chǎn)部署環(huán)節(jié)的脫節(jié),因此對開發(fā)人員非常不友好、非常不高效。

大多數(shù)情況下,我們在公司里會有一些數(shù)據(jù)科學(xué)家或AI研究人員是專注于研究先進(jìn)的算法;還有團(tuán)隊負(fù)責(zé)生產(chǎn)系統(tǒng)。這個生產(chǎn)系統(tǒng)包括軟硬件,很大程度上還是軟件應(yīng)用、大數(shù)據(jù)系統(tǒng)或APP,整個應(yīng)用要非常高效、非常穩(wěn)定、非常可擴(kuò)展,大規(guī)模地部署。

研發(fā)和部署很多時候一開始注的點并不一樣,有很多厲害的AI研究人員,他們做了非常多的AI模型。但在下一步把模型運行在生產(chǎn)系統(tǒng)或生產(chǎn)數(shù)據(jù)上看效果的時候,突然發(fā)現(xiàn)并沒有辦法很好的去對接生產(chǎn)系統(tǒng),于是這時候他就開始關(guān)心這件事情了。所以,這個問題對兩邊都存在。目前,還沒有一個特別好的軟件平臺,能夠把這兩邊整個的需求統(tǒng)一在端到端的流水線上。

6

芯片公司,為何要做開源平臺?

英特爾在開源的社區(qū)和開源的研發(fā)方面都有長久的投入,從操作系統(tǒng)Linux,再到虛擬化,再到大數(shù)據(jù)、AI,其實英特爾在開源方面做了非常大的工作。

開源的目的是,一個健康活躍的開源生態(tài)系統(tǒng),對整個的技術(shù)發(fā)展有非常大的推動。BigDL的目的也是這樣,我們希望能夠幫大數(shù)據(jù)和AI 的生態(tài)系統(tǒng)做一個橋梁,幫助用戶更好地將大數(shù)據(jù)和AI的技術(shù)運用在軟硬件平臺上。

今天來說,構(gòu)建這樣一個基礎(chǔ)軟件生態(tài)系統(tǒng),最好的方式是通過開源,大家在里面可以有非常多創(chuàng)新和溝通交流。從BigDL的角度來說,我們作為一個開源的項目,也是希望能夠把大數(shù)據(jù)生態(tài)系統(tǒng)和深度學(xué)習(xí)的生態(tài)系統(tǒng)做一個連接。

7

大數(shù)據(jù)、AI與超異構(gòu)

主持人:異構(gòu)計算目前非常火熱,您覺得底層計算平臺應(yīng)該具備哪些特點、并且如何支撐大數(shù)據(jù)的處理呢?

這個問題我覺得可以從兩方面來回答。

第一,BigDL希望做的是把大數(shù)據(jù)生態(tài)系統(tǒng)和人工智能生態(tài)進(jìn)行結(jié)合。我們針對分布式的至強(qiáng)CPU服務(wù)器集群來進(jìn)行大數(shù)據(jù)AI平臺的構(gòu)建,并在硬件上其實有非常多的優(yōu)化。雖然英特爾的至強(qiáng)CPU是一個通用處理器,但是里面其實有非常多的硬件指令是針對AI優(yōu)化的,比如在低精度INT8上的VNNI或者DL Boost,在下一代至強(qiáng)可擴(kuò)展處理器中的AMX的矩陣加速硬件。當(dāng)它成為通用CPU計算的一部分之后,用戶可以利用軟件進(jìn)行加速,從某種意義上獲得免費的加速能力。從一些實踐中可以看到,這種軟硬件的結(jié)合,可以幫助用戶免費得到十倍甚至更高的性能提升。

另外一方面,我們看到一個很重要的趨勢——異構(gòu),事實上我們認(rèn)為這是一個“超異構(gòu)”的趨勢,因為有著非常多的芯片類型,從FPGA到GPU再到ASIC加速器到IPU等等。所以怎樣通過一個非常好的軟件的抽象(比如英特爾的oneAPI就開放了標(biāo)準(zhǔn)的軟件抽象),能夠?qū)⒉煌琗PU硬件加速和計算集成在統(tǒng)一的界面下,也讓上層軟件開發(fā)更高效。這兩方面的工作我們都在進(jìn)行中。

8

BigDL的演進(jìn)

BigDL 的開源是在2016年12月30日,在過去五六年的時間里,我們和社區(qū)里的很多用戶、合作伙伴做了非常多的合作。比如大規(guī)模的推薦系統(tǒng),大規(guī)模的時序分析的應(yīng)用,當(dāng)然也有很多計算機(jī)視覺、自然語言處理等等方面的應(yīng)用。

舉一個和萬事達(dá)卡的合作案例,他們有差不多20億的用戶和交易數(shù)據(jù),在大數(shù)據(jù)平臺上可能有幾千億的交易的記錄。當(dāng)他們使用非常大規(guī)模的CPU至強(qiáng)集群構(gòu)建大數(shù)據(jù)平臺之后,他們希望能夠在這些數(shù)據(jù)上構(gòu)建AI應(yīng)用,并對他們的交易數(shù)據(jù)進(jìn)行挖掘,產(chǎn)生各種各樣的模型等等。

利用BigDL,萬事達(dá)卡的工程師得以在其大規(guī)模的企業(yè)數(shù)據(jù)倉庫上構(gòu)建了非常多“端到端”的AI應(yīng)用,從數(shù)據(jù)倉庫端對數(shù)據(jù)進(jìn)行分析、抓取、特征處理、建模、訓(xùn)練,最大的應(yīng)用在幾百臺至強(qiáng)服務(wù)器上進(jìn)行大規(guī)模分布式的訓(xùn)練,差不多在5小時內(nèi)訓(xùn)練出一個大規(guī)模的AI模型,并提高他們各種AI的能力。

那么英特爾BigDL是否只能運行在英特爾平臺上呢?答案是否定的。嚴(yán)格來說,BigDL并不是只運行在英特爾平臺上,而是運行在大數(shù)據(jù)的生態(tài)系統(tǒng)上。但大數(shù)據(jù)生態(tài)系統(tǒng)基本上都是運行在X86的平臺上。當(dāng)然BigDL會為英特爾的至強(qiáng)服務(wù)器等做更多的優(yōu)化,來提高它的執(zhí)行效率。

9

大數(shù)據(jù)的發(fā)展愿景    

從計算加速角度來說,面對硬件加速器,我們或許低估了軟件優(yōu)化的能力。很多軟件優(yōu)化的技術(shù),包括像低精度、多核多線程計算、量化方式等等,能夠很好地對AI整個計算效率帶來非常大的提升。

其實我們今天也做了很多工作,我們甚至愿意把他們稱之為軟件的AI加速器,這個“免費加速器”如何與BigDL這種大規(guī)模分布式的環(huán)境相結(jié)合,不只是很好地做scale out水平擴(kuò)展,還可以很好地提升每個節(jié)點的計算效率,這是我們正在進(jìn)行中的大部分的工作。這件事情是非常重要的,一個生態(tài)系統(tǒng),必須要將各種技術(shù)能夠有機(jī)統(tǒng)一在一起,然后最終的目標(biāo)是給用戶帶來最大的價值。

我們有一個愿景叫「AI Everywhere」 ,就是「AI無所不在」。在將來的很多生活應(yīng)用中,都會使用大數(shù)據(jù)和AI來進(jìn)行分析,從而提升體驗和生產(chǎn)效率。

從數(shù)據(jù)的角度來說,深度學(xué)習(xí)較大的局限在于進(jìn)行大量的監(jiān)督學(xué)習(xí)。很多人說:人工智能,有多少人工就有多少智能 —— 因為要對大量數(shù)據(jù)進(jìn)行標(biāo)簽、清洗。逐漸的大家意識到這個問題,于是大量向自監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、或者說元學(xué)習(xí)這樣的方式進(jìn)行轉(zhuǎn)移,并研究這些新的學(xué)習(xí)范式,怎樣提高數(shù)據(jù)的效率、減少人工干預(yù)。

在算法本身,一方面大模型是明顯的趨勢,超大參數(shù)的模型能夠得到更好的效果;但是另一方面,這也會給計算帶來非常大的挑戰(zhàn)。當(dāng)模型變大以后,計算的整個效率其實是降低了。我覺得非常重要的點是如何利用遷移學(xué)習(xí)、或者利用新的學(xué)習(xí)范式,來把這種非超大規(guī)模的模型更好地利用到下游的任務(wù)上去,從而減少計算量并提高效率。

除了剛才提到的計算、數(shù)據(jù)和算法之外,還有一個很多人會忽視的關(guān)鍵地方,那就是開發(fā)效率。不只是計算效率或數(shù)據(jù)效率,而是作為一個數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師或大數(shù)據(jù)工程師,他們的效率也是非常重要的,因為很多時候到最后人比機(jī)器更貴。

怎樣提高開發(fā)人員的開發(fā)效率,不管是今天所謂的低代碼、無代碼的開發(fā)方式,都值得探索。我可能更感興趣的是,作為一個寫代碼的人,怎樣能夠有非常好的開發(fā)環(huán)境。我們在BigDL做的工作可以說是初步的嘗試,怎樣更好地讓今天的數(shù)據(jù)科學(xué)家和工程師在大規(guī)模的、非常復(fù)雜的算法、非常復(fù)雜的數(shù)據(jù)的這樣一個環(huán)境中非常高效地進(jìn)行開發(fā),這也是推動人工智能和大數(shù)據(jù)的一個重要方向。

10

大數(shù)據(jù)技能是否會成為

未來程序員的標(biāo)配?

我覺得大數(shù)據(jù)處理今天已經(jīng)是程序員的標(biāo)配了,基本上大多數(shù)開發(fā)者、特別是在云端進(jìn)行應(yīng)用開發(fā)的人,都會接觸到怎樣對數(shù)據(jù)進(jìn)行處理。只是怎樣把整個技術(shù)平臺和軟件平臺做得更加易用,這是一個難點。

另外一個難點就是說今天的數(shù)據(jù)計算、人工智能、機(jī)器學(xué)習(xí)的算法,很多會成為標(biāo)準(zhǔn)化或者大家都需要使用的工具,但是新的技術(shù)的發(fā)展還是剛需。雖然人工智能、大數(shù)據(jù)很有用,但是還有很多缺陷,怎樣在新的技術(shù)方向上進(jìn)行突破,仍然是非常重要的一點。

彩蛋:英特爾院士對大數(shù)據(jù)學(xué)習(xí)的建議

大數(shù)據(jù)、人工智能是一個非常復(fù)雜的系統(tǒng),其實有很多不同的技術(shù)方向。給大家的建議來說有三條。

第一,Linux創(chuàng)始人林納斯的一句話,“Talk  is cheap,show me  the  code。”很多時候當(dāng)你看到一個感興趣的方向,第一步應(yīng)該考慮怎樣能夠真正扎實地做點東西出來。哪怕去復(fù)現(xiàn)一個算法,在上面進(jìn)行一些改動,做一些新的東西,都可以。

第二,當(dāng)你做了好幾個項目之后,需要思考如何把這些工作展現(xiàn)給別人。要思考工作的體系是什么,整個趨勢是什么,能不能把我做的事情說清楚,我做了什么,為什么做這個,我解決什么問題——這些思考很重要。

第三,有一句話和大家共勉:我們通常會高估自己一年能做什么,但低估自己十年能夠完成什么。很多人就會覺得,我認(rèn)認(rèn)真真做了一年、做了好幾個月,但并沒有太大進(jìn)展。其實只要你能夠按照這個方向真正堅持做下去,過了五年,過了十年,你會發(fā)現(xiàn)你有非常大的收獲。

責(zé)任編輯:張燕妮 來源: AI科技評論
相關(guān)推薦

2009-09-17 14:59:31

敏捷開發(fā)

2015-11-28 12:47:08

IBM三一集團(tuán)工業(yè)4.0

2019-02-12 15:26:07

華為云

2018-04-25 08:15:48

5G商用運營商

2015-05-04 09:50:10

OpenStack企業(yè)云方案紅帽

2015-09-01 13:58:25

大數(shù)據(jù)企業(yè)

2014-06-06 09:52:42

大數(shù)據(jù)

2023-01-06 14:30:12

2021-08-30 19:01:49

數(shù)據(jù)開發(fā)模式

2019-10-29 20:13:43

Java技術(shù)程序員

2016-07-20 16:58:44

SDN軟件定義網(wǎng)絡(luò)

2024-02-19 15:59:56

2023-04-04 07:04:20

2013-07-12 10:30:34

2017-04-24 11:40:26

大數(shù)據(jù)制造企業(yè)

2022-02-21 10:34:55

Kubernetes容器云計算

2019-06-06 10:24:40

物聯(lián)網(wǎng)數(shù)字化消費

2016-10-25 09:37:13

2024-12-18 15:34:07

2023-06-05 05:39:35

大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产最新网址 | 色播久久| 国产精品一区二区在线观看 | 亚洲性视频 | 国产精品综合网 | 欧美性生交大片免费 | 久久欧美精品 | 国产日韩精品一区二区三区 | 久久精品一区二 | 成人1区2区| av喷水 | 国产欧美日韩一区二区三区在线观看 | 日韩一级 | 久久国产一区二区三区 | 日韩a v在线免费观看 | 日韩视频一区 | 一区二区三区四区在线 | 国产精品一区二区三区四区 | 精品国产一区二区三区免费 | 欧美午夜精品理论片a级按摩 | 国产一级片网站 | 成人在线影视 | 在线天堂免费中文字幕视频 | 91麻豆精品国产91久久久更新资源速度超快 | 久久久久久久久久久久久9999 | 欧美成人一区二区三区 | 狠狠亚洲| 久久久91精品国产一区二区三区 | 久久综合久色欧美综合狠狠 | 国产99久久精品一区二区永久免费 | 国产精品毛片av | 日韩中文欧美 | 欧美视频在线免费 | 久久1区 | 天天综合国产 | 伊人久久伊人 | 国产精品久久久久久久久久久久久 | 狠狠干天天干 | 精品一区欧美 | 免费国产一区二区 | 黄毛片 |