成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鵬城云腦支撐鵬程系列大模型基礎(chǔ)研究

人工智能
引言:近日,“昇騰萬里 共贏智能新時(shí)代”峰會(huì)在深圳成功舉辦。峰會(huì)集聚了人工智能產(chǎn)業(yè)界權(quán)威專家、學(xué)者和商業(yè)領(lǐng)袖,共商人工智能產(chǎn)業(yè)發(fā)展趨勢(shì),共同推動(dòng)人工智能產(chǎn)業(yè)繁榮發(fā)展。大會(huì)現(xiàn)場(chǎng),中國(guó)工程院院士、鵬城實(shí)驗(yàn) 主任、北京大學(xué)教授高文發(fā)布《鵬城云腦支撐鵬程系列大模型基礎(chǔ)研究》主題演講,如下是高文院士演講全文要點(diǎn)。

[[401368]]

   各位專家、各位來賓,大家好!今天我主要是講鵬程大模型和自然語言處理有關(guān)的賦能。

  鵬城實(shí)驗(yàn)室是國(guó)家為了中國(guó)科技長(zhǎng)期能夠穩(wěn)定支撐整個(gè)國(guó)家的發(fā)展,所布局的戰(zhàn)略科技力量當(dāng)中的一支團(tuán)隊(duì),主要聚焦寬帶通信和新型網(wǎng)絡(luò)方面,包括高效能云計(jì)算服務(wù)。今天我講的基于昇騰基礎(chǔ)軟硬件所做的工作就是屬于高效能云計(jì)算服務(wù)中的一塊,主要是通過鵬城云腦來實(shí)施這個(gè)戰(zhàn)略。

  為什么要做這個(gè)?道理其實(shí)大家很容易懂,現(xiàn)在有了人工智能,因?yàn)閿?shù)據(jù)增長(zhǎng)速度非常快,算力又滿足不了要求,應(yīng)用又很急切,我們?cè)鯓影堰@些東西全都打通?需要有一個(gè)非常強(qiáng)的算力平臺(tái)作為支撐,能夠處理大規(guī)模的數(shù)據(jù),能夠有好的算法,在這個(gè)算力平臺(tái)上把想要的解決方案提供出來,所以有這樣一臺(tái)大的設(shè)施是非常關(guān)鍵的,這個(gè)設(shè)施我們就把它叫做云腦。

  我們?cè)诮ㄔO(shè)鵬城云腦II的期間,真正實(shí)現(xiàn)了“深圳速度”的一個(gè)神話,為什么呢?了解我們國(guó)家科研制度的都知道,你要想做一個(gè)大的裝置,或者做一臺(tái)比如說大的機(jī)器,從開始到論證、報(bào)方案、批復(fù),然后科研,然后再開始建設(shè),這一個(gè)周期下來,快的是幾年,慢的有的是十幾年。而鵬城云腦II從開始遞交方案到機(jī)器建成一共用了九個(gè)月,真正體現(xiàn)了“深圳速度”。編制項(xiàng)目建議書是在去年(2020年)3月份,云腦II機(jī)器啟動(dòng)運(yùn)行是在去年10月15號(hào),大家看左面這個(gè)坑是建機(jī)房之前,原來是采石場(chǎng)的一個(gè)坑,右邊這個(gè)照片是機(jī)房建好以后的樣子。現(xiàn)在這臺(tái)機(jī)器非常忙,這個(gè)機(jī)器的機(jī)時(shí)的使用率是99%,就是基本上是一點(diǎn)都不閑著,排著隊(duì)在等機(jī)時(shí),因?yàn)槲覀冇刑啻竽P托枰谶@個(gè)機(jī)器上去訓(xùn)練。

  這個(gè)機(jī)器我們叫E級(jí)AI算力,達(dá)到1000P,所謂E級(jí)是10的18次方,或者換成我們普通說法叫做百億億次,我們知道一億是10的8次方,億億就是10的16次方,后面再加兩個(gè)零就是百億億次,應(yīng)該說在AI算力上,是現(xiàn)在最強(qiáng)的一個(gè),當(dāng)然可能其他一些地方也有比這個(gè)算力規(guī)模稍微小一點(diǎn)的機(jī)器,現(xiàn)在用華為的系統(tǒng)已經(jīng)建了大概六七個(gè)、七八個(gè),或者是100P、300P的機(jī)器,大概是這臺(tái)機(jī)器的1/10,或者是1/3這樣的一個(gè)算力。這個(gè)算力要把它轉(zhuǎn)起來還是要花點(diǎn)氣力的,因?yàn)槲覀冞@臺(tái)機(jī)器是基于華為的Atlas 900 AI集群實(shí)現(xiàn)的,一組Atlas 900 AI集群有128個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)內(nèi)包含8顆昇騰910處理器,我們把四組Atlas 900 AI集群連到一起,整個(gè)是統(tǒng)一接口、統(tǒng)一形象,完全是一張網(wǎng)、一個(gè)機(jī)器。為了做這個(gè)機(jī)器,我們把四組集群上面架了一個(gè)全交換的非常快的網(wǎng)絡(luò),為了讓它對(duì)數(shù)據(jù)的讀取速度更快,對(duì)每一個(gè)機(jī)器里面的存儲(chǔ)做了加強(qiáng),對(duì)它內(nèi)部的一些運(yùn)算底層的軟件做了優(yōu)化,這樣就使得這個(gè)機(jī)器的速度非常快。快到什么程度呢?基本上這臺(tái)機(jī)器現(xiàn)在在全世界的IO速度是最快的。快到什么程度呢?在去年的11月份,這臺(tái)機(jī)器去打榜的時(shí)候,比排第二的英特爾的一臺(tái)機(jī)器快了四倍。如果想做人工智能訓(xùn)練,想做大模型訓(xùn)練, IO的速度是決勝的,因?yàn)橐写罅康臄?shù)據(jù)來回的讀進(jìn)去吐出來,如果IO速度如果不行的話,很多的開銷都被IO給吃掉了。這臺(tái)機(jī)器因?yàn)樗麵O方面做了特殊的配置,而且網(wǎng)絡(luò)方面也做了特殊配置,所以這個(gè)速度,就是通信的開銷,整個(gè)占比是比較低的,所以它在整個(gè)模型訓(xùn)練的時(shí)候效率就會(huì)高。

  這臺(tái)機(jī)器現(xiàn)在至少已經(jīng)訓(xùn)練出兩個(gè)千億級(jí)的大模型。前幾天華為已經(jīng)發(fā)布過一個(gè)盤古大模型,今天我要跟大家說的是叫鵬程大模型,這是兩個(gè)自然語言處理預(yù)訓(xùn)練大模型之一。大家知道GPT3基本上是做自然語言處理,大家非常向往的一個(gè)模型,微軟為了訓(xùn)練一個(gè)GPT3在微軟的環(huán)境下,花了1200萬美元訓(xùn)練出一個(gè)GPT3的模型來。我們現(xiàn)在云腦II機(jī)器做完以后,已經(jīng)訓(xùn)練出兩個(gè)這樣的模型,一個(gè)是鵬城實(shí)驗(yàn)室跟MindSpore團(tuán)隊(duì)等聯(lián)合攻關(guān)訓(xùn)練出來的,這個(gè)模型叫鵬程.盤古,模型參數(shù)為兩千億;另一個(gè)是華為云聯(lián)合鵬城實(shí)驗(yàn)室一起聯(lián)合訓(xùn)練出來的大模型,這個(gè)模型叫華為.盤古,這個(gè)模型參數(shù)為一千一百億。這兩個(gè)模型整個(gè)的復(fù)雜度都是千億參數(shù),而且專門是針對(duì)中文的最大的模型。

  鵬程模型還有一個(gè)特點(diǎn)是開源的,我們內(nèi)部的人討論說,就算你把兩千億開源了,它離了我們這臺(tái)機(jī)器還是玩不轉(zhuǎn),要想跑起來就得來我們這個(gè)機(jī)器上跑。為了支持應(yīng)用怎么辦呢?我們先開出一個(gè)百億級(jí)的大模型來,那么千億級(jí)的,如果有需要,只要是講清楚你要怎么用,在哪里算,我們也可以開。所以原則上支持開源的。

  那么有了這個(gè)開源,你就可以做很多自然語言處理方面的事。你要想做一個(gè)中文的問題回答系統(tǒng),就是問答系統(tǒng),你要想做自然語言的理解,想做一些理解器,或者你想做機(jī)器翻譯等等,這個(gè)系統(tǒng)都可以做。這個(gè)模型可以做云搜索、智能客服、醫(yī)療的一些向?qū)А⒒?dòng)的教育、文學(xué)創(chuàng)造、自動(dòng)摘要的生成,甚至做代碼的生成。現(xiàn)在我們有一個(gè)團(tuán)隊(duì)在做一個(gè)知識(shí)產(chǎn)權(quán)交易聯(lián)邦推薦系統(tǒng),沒有這個(gè)模型之前,是用軟件和很多專家的知識(shí),做了一個(gè)系統(tǒng),用上鵬程大模型以后,這個(gè)系統(tǒng)性能一下子提高了12.2%,所以鵬程大模型的好處是顯而易見的。而且我們希望用這個(gè)模型來突破“語言壁壘”,支撐“一帶一路”的國(guó)家戰(zhàn)略,也就是說用這個(gè)模型我們很容易做機(jī)器翻譯,做商業(yè)的這種報(bào)關(guān)等等這些文件的交換。以前是商量好用英語或者商量好用什么語言,現(xiàn)在隨便,你這邊用中文,那邊用阿拉伯語,通過這個(gè)東西馬上給你互譯過來。大家現(xiàn)在用手機(jī)就可以登錄進(jìn)去,試試這個(gè)模型好不好用,你問一些問題,看看它能不能回答出來。

  鵬程大模型到底是怎么“煉”出來的呢?它是有四個(gè)方面基本的要素:

  第一個(gè)要素是AI的算力,就是鵬城云腦II;第二個(gè)要素是要有高質(zhì)量的中文語料庫(kù),我們有一個(gè)專門整理中文語料數(shù)據(jù)集的團(tuán)隊(duì),把能拿到、能買到的數(shù)據(jù)全都拿來進(jìn)行清洗,然后把數(shù)據(jù)整理得非常好,送進(jìn)機(jī)器就可以進(jìn)行訓(xùn)練;然后要有一個(gè)非常好的全自動(dòng)并行的這樣一個(gè)算法,這個(gè)算法是由昇騰、MindSpore團(tuán)隊(duì)和鵬城實(shí)驗(yàn)室的工程師無縫合作,把這些全并行的技術(shù)實(shí)現(xiàn)了;最后就是通過“產(chǎn)學(xué)研”三方合作新型研發(fā)合作機(jī)制,結(jié)合華為的產(chǎn)業(yè)優(yōu)勢(shì),北京大學(xué)的學(xué)術(shù)優(yōu)勢(shì),以及鵬城實(shí)驗(yàn)室的研究?jī)?yōu)勢(shì),形成互補(bǔ)、協(xié)同。

  整個(gè)鵬城云腦可以作為核心節(jié)點(diǎn)連接全國(guó)算力的基礎(chǔ)設(shè)施,我們剛才說的是1000P的這樣一臺(tái)機(jī)器,現(xiàn)在全國(guó)各地有不少基于昇騰軟硬件在做的100P的或者300P的機(jī)器,這些可以聯(lián)動(dòng)起來一起做,有大的問題、難的問題可以到1000P的機(jī)器上跑,小一點(diǎn)的模型或者私有化的一些應(yīng)用,可以到100P、300P的機(jī)器上跑,這樣大家有些分工,就可以在全國(guó)把人工智能分享起來。

 

責(zé)任編輯:張誠(chéng) 來源: 互聯(lián)網(wǎng)
相關(guān)推薦

2020-07-27 16:01:16

華為云EITechWave

2020-07-28 15:56:56

華為云EI

2015-11-11 20:23:22

創(chuàng)新

2018-07-26 18:09:33

華為頒獎(jiǎng)Polar碼之父

2025-06-26 15:10:22

DeepMindAI工程團(tuán)隊(duì)

2022-06-13 16:55:28

騰訊云數(shù)據(jù)庫(kù)

2020-09-25 12:02:16

華為田奇全聯(lián)接

2024-02-05 14:12:37

大模型RAG架構(gòu)

2009-03-31 19:14:09

Vmware虛擬化云計(jì)算

2023-08-11 16:17:55

2025-03-06 07:28:31

DeepSeek大模型人工智能

2024-07-19 12:48:29

2024-06-17 07:46:01

2012-05-21 16:08:07

Hadoop云計(jì)算

2024-05-06 07:58:23

MoE模型系統(tǒng)

2025-05-21 13:56:37

模型圖像AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美性受xxxx白人性爽 | 精品久久香蕉国产线看观看亚洲 | 久久久亚洲成人 | 蜜桃av一区二区三区 | 国产精品久久久久久久久久 | 四虎影院免费在线播放 | 久久久高清 | www久久久 | 999热精品视频 | 国产精品久久久久久亚洲调教 | 国产乱码精品一区二区三区忘忧草 | 精品一区二区在线观看 | www久久久 | 亚洲成人久久久 | 国产精品国产成人国产三级 | 97超碰在线播放 | 国产精品成人一区二区三区夜夜夜 | 欧美日韩精品免费 | 成人性生交大片免费看r链接 | 午夜久久久 | 中文字幕在线不卡 | 黄色大片网| 色婷婷av一区二区三区软件 | 午夜影视大全 | 99re视频在线观看 | 久久国产区 | 久久综合av | 日韩欧美在线观看视频 | 日本色婷婷 | 成人在线一级片 | 国产福利在线 | 欧美黄色网| 欧美日韩三区 | 亚洲精品一二区 | 国产精品久久久久久妇女6080 | 一区二区三区四区在线视频 | 成人精品毛片国产亚洲av十九禁 | 精品乱码一区二区 | 日韩欧美国产精品一区 | 在线色网站 | 欧美日韩国产一区二区 |