大模型上層應(yīng)用本質(zhì)上是一個(gè)能力整合的過(guò)程 原創(chuàng)
“ 技術(shù)的應(yīng)用并不是一個(gè)孤島,而是一個(gè)能力整合和串聯(lián)的過(guò)程”
很多人喜歡把大模型當(dāng)做一個(gè)獨(dú)立的技術(shù)和應(yīng)用,事實(shí)上各種應(yīng)用場(chǎng)景是一個(gè)能力整合的過(guò)程,而不是獨(dú)立的技術(shù)孤島。
思考一個(gè)問(wèn)題,你知道網(wǎng)絡(luò)上一些由AI合成的視頻是怎么生成的嗎? 它的背后隱藏著那些能力?
大模型構(gòu)建上層應(yīng)用
以網(wǎng)上爆火的AI視頻類為例,一個(gè)AI視頻使用到了哪些技術(shù)?
首先,視頻生成和處理的能力;其次,語(yǔ)音合成能力;再者,音畫同步的能力;最后,文字與語(yǔ)音轉(zhuǎn)換的能力等等。
比如說(shuō),要想做一個(gè)林黛玉大戰(zhàn)孫悟空,卻導(dǎo)致鎮(zhèn)關(guān)西失街亭,最后導(dǎo)致劉備官渡之戰(zhàn)大敗而歸的視頻;并配上文字和語(yǔ)音解說(shuō)。
這樣的視頻應(yīng)該怎么做?
首先,需要利用AI 視頻工具生成以上四個(gè)部分;孫悟空大戰(zhàn)林黛玉,鎮(zhèn)關(guān)西失街亭,官渡大戰(zhàn);然后自己或使用自然語(yǔ)言處理工具做出解說(shuō)文字;最后再用TTS或剪輯工具配上某個(gè)人的語(yǔ)音;這樣才算完成了一個(gè)基礎(chǔ)的視頻剪輯功能。
而這也是自媒體界常說(shuō)的腳本,第一步該干啥,第二步該干啥等等。
而從大模型的應(yīng)用角度來(lái)說(shuō),這個(gè)功能就屬于AIGC的功能;那如果從技術(shù)的角度來(lái)說(shuō),是否能夠利用編程技術(shù)整合多個(gè)大模型的能力,使得以上功能只需要輸入一些prompt就可以完成?
從理論上來(lái)說(shuō),這種想法是可行的;而需要的是什么?
其實(shí)需要的就是一個(gè)類似于導(dǎo)演和編劇的角色,而這個(gè)角色可以通過(guò)什么來(lái)實(shí)現(xiàn)?
以上功能可以通過(guò)Agent來(lái)實(shí)現(xiàn),使用一個(gè)具備邏輯推理能力的大模型作為大腦,來(lái)指揮其它模型和調(diào)用多種工具完成以上功能。
可能每一個(gè)模型和工具的能力都不是很強(qiáng),但通過(guò)一個(gè)中央大腦的整合,就可以讓這些簡(jiǎn)單的工具變得強(qiáng)大無(wú)比;而這就是能力整合的能力。
AI技術(shù)發(fā)展了幾十年,雖然很多人認(rèn)為它好像沒(méi)什么用;但不得不承認(rèn)的是,AI可以讓一個(gè)什么都不懂的人也可以做一名剪輯師。
比如說(shuō),第一步利用文生圖生成多張圖片,然后再利用圖生視頻的能力,生成一段視頻;然后再用自然語(yǔ)言處理模型生成一段文字,最后通過(guò)剪輯工具或其它AI工具把視頻,文字整合到一起并配上語(yǔ)音旁白;這樣一個(gè)漂亮的視頻剪輯成果就出來(lái)了。
而在此之前,一個(gè)人要想學(xué)視頻剪輯,既要需要攝影攝像,拍照剪輯,還要學(xué)會(huì)各種構(gòu)圖的方式以及各種拍攝和剪輯工具的使用;為了增加視頻的質(zhì)量還需要絞盡腦汁地寫文案,找專業(yè)聲優(yōu)配音等。
而這些現(xiàn)在都可以通過(guò)AI來(lái)解決,大大降低了人的學(xué)習(xí)和使用成本,提升生產(chǎn)效率。
還有一些人使用類似于豆包等AI工具,調(diào)配多種AI和其它工具,整合成一個(gè)私人助手,更有甚者,有人利用AI助手開起了一個(gè)人的公司。
這都是AI技術(shù)的應(yīng)用,也是一種能力整合的能力。
大模型技術(shù)雖然發(fā)展的如火如荼,但大模型的應(yīng)用嚴(yán)格來(lái)說(shuō)還處于一個(gè)不斷摸索的過(guò)程;只要你敢想敢嘗試,那么就有無(wú)限的可能。
原文鏈接:??https://mp.weixin.qq.com/s/k7JyWGgod0CsrzbyO5ouKQ??
