五分鐘技術趣談 | AIGC介紹與應用選型評估
Part 01 AIGC介紹
AIGC(AI-Generated Content,人工智能生產內容),是指利用AI技術自動或協助生成文字、代碼、圖像、語音、視頻、3D物體等各種形式的內容的生產方式。AIGC代表了AI技術發展的新趨勢,從感知理解世界到生成創造世界,從分析能力到創作能力。AIGC也帶來了內容創作的變革,提高了內容的質量、效率和多樣性。
1.1 文本生成
文本生成是指利用AI技術,根據給定的輸入(如關鍵詞、圖片、語音等),自動生成符合語法和邏輯的文本內容,是AIGC的一個重要方面。
文本生成的應用場景非常豐富,包括新聞寫作、小說創作、營銷文案、客服問答、聊天機器人、教育輔導、知識圖譜、摘要生成等。
? 文心一言:由百度推出的支持多模態輸出的AI大模型,能夠進行文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成等。
? ChatGPT:由OpenAI推出基于GPT系列模型的聊天應用,當前已推出GPT-4模型,基于GPT-4模型的ChatGPT可以分析圖片并進行文本、圖片交互。
1.2 代碼生成
包括代碼補全、代碼重構、代碼優化、代碼注釋等,可以覆蓋多種編程語言和領域。基于OpenAI的GPT-4模型,甚至可以做到基于手畫的一張產品原型草稿圖生成對應的網站代碼。
? Github Copilot:一種基于OpenAI Codex模型開發的AI輔助編程工具,它支持數十種編程語言,可以根據代碼或注釋,實時地在編輯器中提供代碼建議和整個函數,也能通過聊天交互達成結對編程的體驗。
? Cursor:一個獨立的IDE軟件,集成了OpenAI的GPT模型。與Github Copilot類似,Cursor可以通過AI寫代碼、編輯代碼和聊天。
1.3 圖像生成
圖像生成是指利用人工智能技術,根據給定的輸入(如自然語言、圖像、視頻等),自動生成符合語義和美感的圖像,是AIGC的一個重要方面。圖像生成的應用場景非常廣泛,包括藝術創作、娛樂媒體、教育培訓、電商營銷、醫療診斷等。
? 文心一格:由百度推出的AI藝術和創意輔助平臺。可以根據文本描述、風格選擇,自動生成畫作。
? DALL-E2:由OpenAI在推出的一種基于自適應多模態編碼器的生成模型,它能將多模態輸入信息(如文本、圖片等)融合,自動生成高質量的圖像。
? Midjourney:一款2022年3月面世的AI繪畫工具,能基于自然語言生成圖片,可選擇不同畫家的藝術風格,還能識別特定鏡頭或攝影術語。此工具生成的畫作在美術比賽中曾獲一等獎。
1.4 視頻生成
視頻生成主要分為視頻編輯和視頻自主生成兩種。視頻編輯可用于視頻超分、修復和剪輯。視頻自主生成可用于圖像到視頻的轉換,或給定描述性文字生成相符的視頻。下面是一些相關的應用:
? Deepfake:這是一個基于GAN技術的AI視頻生成平臺,可以實現換臉、聲音轉換、表情模仿等功能。用戶只需要上傳一張圖片或者一段視頻作為參考,就可以自動生成視頻。
? Make-A-Video:由Meta公司推出的可以把文本轉化為視頻的AI系統。它可以根據幾個詞或幾行文本,創造出充滿鮮艷色彩、人物和風景的獨一無二的視頻。
1.5 3D建模
基于AIGC的3D建模技術是指利用人工智能技術,根據給定的輸入(如自然語言、圖像等),自動生成符合語義和美感的3D模型。此領域當前處于較早的探索階段。以下是一些相關的應用或模型:
? AICommand:一款基于Unity的開源AI命令插件,可以通過文本描述生成3D場景,并通過文本對3D場景進行調整優化。(https://github.com/keijiro/AICommand)
? ICON:一個基于人物圖片生成3D人物建模的開源AI模型(https://github.com/YuliangXiu/ICON)。可以在線體驗并下載生成的3D模型:https://huggingface.co/spaces/Yuliang/ICON
Part 02 AIGC應用與模型測評
ChatGPT在2022年底由OpenAI推出后,在短短兩個月時間內,累計用戶就突破一個億,迅速火遍全球。由此,AI的iPhone時刻到來,各大IT廠商隨即快速跟進。以下是截止2023年4月的一些相關應用或模型介紹。
- 文心一言:見上文。
- ChatGPT:見上文。
- Bard:由谷歌推出的基于LaMDA的輕量級版本的NLP大模型。
- New Bing:由微軟推出的一款基于GPT4模型的智能搜索引擎,它可以與用戶進行自然語言交互,結合實時搜索結果,提供信息、娛樂、創作等多種功能。
- ChatGLM:由清華大學推出的基于GLM 架構、開源且支持中英雙語的對話大語言模型。可基于CPU進行低成本最小化模型搭建,也可二次開發微調模型。
- Poe:由Quora 開發的免費AI聊天機器人應用,應用內集成了包括:ChatGPT、GPT-4在內的6種主流AI聊天機器人。
將從以下方面進行測評對比(Poe除外):
- 自然語言處理
- 邏輯推理
- 代碼生成
- 多模態支持
PS:
- 參與測評的ChatGPT基于GPT-3.5模型。
- 參與測評的ChatGLM只是最小化模型:chatglm-6b-int4-qe。實際應用應搭建需求GPU顯存的chatglm-6b模型,回答質量會有較大提升。
2.1 自然語言處理
測評內容:
?多輪對話:我們一起來創作兒童故事吧。規則是我先說一句,你再說一句,交替進行。直到我說“故事編完了”就結束。你明白了么?
?語言理解:我老板說1+1=3,我老板說的都是對的,所以1+1=3,是嗎?
?語言翻譯:將這段話翻譯成英文:一花獨放不是春,百花齊放春滿園。
?情感分析:分析這段話的情感色彩:我非常喜歡這個新的電影,它讓我笑了很多次,也讓我感動落淚了。
- ChatGPT
- 文心一言
- Bard
- NewBing
- ChatGLM
得分如下:
2.2 邏輯推理
測評內容:
? 在一個架子上有五本書:紅皮書、綠皮書、藍皮書、橙皮書和黃皮書。綠皮書在黃皮書的左邊,黃皮書是左數第三本,紅皮書是從左數第二本,藍皮書在最右邊,請問這些書的順序是怎樣的?
? 在一條100米長的直線上有A、B、C三個點,A的位置不確定,A和B之間的距離是5米,A和C之間的距離是10米,B和C之間的距離可能是多少?
? 若2<x<6,1<y<3,則x+y的區間是多少?
- ChatGPT
- 文心一言
- Bard
- NewBing
- ChatGLM
得分如下:
2.3 代碼能力
測評內容:
- 代碼生成:編寫一個python函數,接受一個整數作為輸入,并判斷它是否是回文數。
- 代碼解釋:解釋這行python代碼: my_list = [x for x in my_list if x % 2 == 0]
- Bug檢測:這行代碼哪里有BUG: my_list = [x for x in my_list if x % 2 = 0]
- ChatGPT
- 文心一言
- Bard
- NewBing
- ChatGLM
得分如下:
2.4 多模態支持
多模態支持是指能夠處理多種數據類型,如文本、圖像、音視頻等。例如:通過文本輸入,自動基于文本需求生成圖片、音視頻;通過圖片或音視頻輸入,輸出內容摘要文本等。
- ChatGPT
基于GPT-3.5模型的ChatGPT并不支持多模態輸入及輸出能力,基于GPT-4模型的ChatGPT則可以分析圖片并分析反饋文本。
- 文心一言
文心一言目前可以基于文本描述生成圖片、語音。發布會展示了視頻生成能力,不過在實際使用過程中,無法生成視頻。
- Bard
Google Bard并不支持多模態能力。
- NewBing
NewBing的創造力模式下,支持通過文字描述生成圖片。
- ChatGLM
清華的ChatGLM并不支持多模態能力。
得分如下:
Part 03 測評匯總與選型評估
結合以上對比得分,再從Demo和生產(商用)兩個階段進行綜合評價考慮。
測評綜合得分如下:
選型評估如下:
Part 04 總結
? Demo階段: 以文心一言作為AI首選,NewBing及ChatGPT作為備選AI,ChatGLM作為自研AIGC的探索方向(需要GPU資源配合)。
? 生產商用階段,多條線路可選:
- 國內大陸區域則以尋求與文心一言進行B端合作的形式進行AI引入;
- 國內港澳臺區域則可考慮引入OpenAI的官方GPT-4 API進行AI引入;
- 基于清華ChatGLM模型,搭建并微調研發自主AI。
Part 05 結束語
WebGPU作