ITTC 2024 | 華為云盤古大模型,開啟AIGC新范式
6月13日,由中國(guó)電影電視技術(shù)學(xué)會(huì)主辦的“菁彩視界·智享未來”2024北京國(guó)際電視技術(shù)研討會(huì)在京舉辦。來自國(guó)家廣播電視總局、中央廣播電視總臺(tái)、全國(guó)多家廣播電視臺(tái)的領(lǐng)導(dǎo)、行業(yè)專家學(xué)者以及創(chuàng)新技術(shù)企業(yè)的500余名代表共襄盛會(huì),共同推進(jìn)“超清化、移動(dòng)化、智能化”創(chuàng)新技術(shù)應(yīng)用發(fā)展。在開幕式暨主旨報(bào)告會(huì)上,華為受邀參加,華為云北京產(chǎn)品中心總經(jīng)理?xiàng)钶x發(fā)表了《盤古大模型在傳媒領(lǐng)域的應(yīng)用探索》的主題演講,分享了華為云盤古大模型解決方案及其在傳媒領(lǐng)域的諸多應(yīng)用場(chǎng)景和實(shí)踐效果。
【2024ITTC 主旨報(bào)告會(huì)】
生成式AI,正在用技術(shù)重塑藝術(shù)創(chuàng)作
近年來,超高清視聽與5G、人工智能、虛擬現(xiàn)實(shí)等新一代信息技術(shù)深度融合創(chuàng)新發(fā)展,催生大量新場(chǎng)景、新應(yīng)用、新模式,成為千行百業(yè)數(shù)字化轉(zhuǎn)型的重要賦能力量。繪畫、雕塑、攝影、音樂、舞蹈、戲劇、文學(xué)和影視藝術(shù)等多種藝術(shù)形態(tài)的創(chuàng)作方式正在發(fā)生變化,生成式AI正在用技術(shù)重塑藝術(shù)創(chuàng)作。
在生成式AI時(shí)代,創(chuàng)作流程得以改變,以往需要長(zhǎng)時(shí)間驗(yàn)證和高門檻的創(chuàng)意過程,現(xiàn)在可以通過AI輔助快速生成內(nèi)容。例如,使用盤古多模態(tài)大模型,就可以實(shí)現(xiàn)以文生圖、以圖生圖甚至文生視頻和圖生視頻的功能。這降低了藝術(shù)創(chuàng)作的入門難度,使得只要有創(chuàng)意,任何人都能創(chuàng)作自己的藝術(shù)作品。
更多模態(tài),多維感知,萬物理解,開啟AIGC新范式
相較于“文本理解世界”的大模型,盤古多模態(tài)大模型的優(yōu)勢(shì)在于能夠通過更多模態(tài)理解世界,如圖像、視頻、語音、3D、時(shí)序數(shù)據(jù)等。盤古多模態(tài)大模型的主要優(yōu)勢(shì),還在于模型架構(gòu)穩(wěn)固且支持增量擴(kuò)展,能夠輕松融入音頻、視頻等多種模態(tài),并通過高效的模態(tài)對(duì)齊方式持續(xù)沉淀知識(shí)。增量擴(kuò)展模態(tài)的開銷大幅全量訓(xùn)練,顯著降低成本。同時(shí),模型能力多樣且不斷提升,涵蓋了基礎(chǔ)、高階和專家能力,支持多尺度視覺表征提取和高分辨率編碼器,滿足客戶各種模型開發(fā)需求。與此同時(shí),還提供零代碼模型開發(fā)全流程工具,讓使用更加便捷。在訓(xùn)練和推理方面,追求持續(xù)降本增效,全棧AI自主創(chuàng)新,可確保模型量化效果降幅微小。
楊輝在主題演講中指出,盤古多模態(tài)大模型具有多個(gè)典型應(yīng)用場(chǎng)景,例如在內(nèi)容審核方面,如文本、圖片、音頻、視頻的全棧式審核,保障信息安全;在內(nèi)容創(chuàng)作上,輔助文案生成,提升創(chuàng)作效率;在知識(shí)問答和文檔助理場(chǎng)景下,提供準(zhǔn)確的信息查詢和文檔處理服務(wù);在城市治理和智慧醫(yī)療領(lǐng)域,發(fā)揮著數(shù)據(jù)分析和決策支持作用;在視覺問答、常識(shí)推理和色彩感知等視覺任務(wù)中表現(xiàn)優(yōu)秀;并能進(jìn)行關(guān)系推理、數(shù)量感知以及空間推理等復(fù)雜的認(rèn)知任務(wù)。此外,模型在遙感、視頻分析、行為識(shí)別、場(chǎng)景識(shí)別、實(shí)體識(shí)別以及OCR等方面均有涉及,顯示了其廣泛的應(yīng)用潛力。
在圖像生成方面,人工智能在藝術(shù)創(chuàng)作中展現(xiàn)出強(qiáng)大的創(chuàng)新力,包括概念注入、以圖生圖和以文生圖等多種形式。圖像理解是多模態(tài)全棧式內(nèi)容審核的關(guān)鍵部分,利用先進(jìn)的計(jì)算機(jī)視覺(CV)技術(shù)和自然語言處理(NLP)技術(shù),對(duì)文本、圖片、音頻、視頻和直播內(nèi)容進(jìn)行全面審核。在影視工業(yè)生產(chǎn)中,AI世界模型正助力高真實(shí)感、低成本的虛擬拍攝,逐步替代綠幕和3D引擎技術(shù),通過AI生成的虛擬內(nèi)容與實(shí)拍鏡頭融合,提供更加自然的演員表演環(huán)境。此外,視頻生成技術(shù)也在自動(dòng)駕駛場(chǎng)景數(shù)據(jù)生成和具身智能機(jī)械臂操作視頻生成中發(fā)揮作用,提高了數(shù)據(jù)生成的效率和質(zhì)量。
科技賦能發(fā)展,創(chuàng)新決勝未來。盤古多模態(tài)大模型以其強(qiáng)大的能力,展現(xiàn)了多模態(tài)理解世界的廣闊前景。通過更多模態(tài)的感知,模型能夠更好地理解世界,實(shí)現(xiàn)更高效、更準(zhǔn)確地創(chuàng)作和審核。展望未來,華為將繼續(xù)攜手伙伴共同推進(jìn)“超清化、移動(dòng)化、智能化”創(chuàng)新技術(shù)應(yīng)用的落地,華為盤古大模型將為AIGC可信高效發(fā)展注入強(qiáng)勁動(dòng)力,為智能世界帶來更多可能。