成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

做完GPT-4完整測評,微軟爆火論文稱初版AGI就快來了

人工智能 新聞
GPT-4 的能力什么檔次?

1956 年,在達特茅斯學院召開的一個研討會上,人工智能這一概念正式被提出。

之后這個詞一直挑戰著心理學家、哲學家和計算機科學家,因為它太難被定義了。1994 年,52 名心理學家聯合發文試圖捕捉它的本質。

隨著時間的推移,研究者開始將注意力轉移到特定領域的 AI 系統,如 2016 年 AlphaGo 挑戰韓國冠軍棋手大獲全勝。之后,時間來到 20 世紀 90 年代末和 21 世紀初,研究者不滿足于專用 AI,因此開發更通用的人工智能系統呼聲越來越高。隨之而來的是,通用人工智能 (AGI) 一詞開始在 2000 年代初期流行起來。

最近一段時間,如大家所見,大型語言模型 (LLM) 走到聚光燈下,這些神經網絡基于 Transformer 架構,并在大量文本數據集上訓練而成。尤其是 OpenAI 最新發布的 GPT-4,更是展示了大型語言模型的通用性,在數學、文字、法律、醫學等領域樣樣精通。

我們不禁會問,GPT-4 是邁向 AGI 的重要一步嗎?

微軟給出的答案是肯定的,在其最近發布的一篇論文中,他們闡述了這個觀點。文中對 GPT-4 進行了全面評測。微軟認為「鑒于 GPT-4 能力的廣度和深度,我們相信它應該被合理視作一個通用人工智能(AGI)系統的早期(但仍不完整)版本。」

微軟還表示,「本文的主要目標是對 GPT-4 的能力和局限性進行探索,我們相信 GPT-4 的智能標志著計算機科學及其他領域的真正范式轉變。」

圖片

論文地址:https://arxiv.org/pdf/2303.12712.pdf

有趣的是,這篇火爆的論文還被人發現有大量刪減,因此有人找出了未刪節版論文。

從未刪減版本中,這個博主也扒出了大量隱藏的細節,如 GPT-4 的內部名稱為 DV-3,實際上也是該論文的隱藏第三作者,后被刪除;這些微軟的研究人員對 GPT-4 的技術細節似乎了解也并不多。此外博主也透露這篇論文發布時刪除了有關毒性內容的部分(防止給 OpenAI 造成負面?)。

我們下面粘貼了該博主的 Twitter 線程,感興趣的可以查看。

圖片

Twitter thread:https://twitter.com/DV2559106965076/status/1638769434763608064

回到文章本身。

根據文章所認定的 AGI,是具體的擁有推理、計劃、解決問題、抽象思維、理解復雜思想、快速學習和從經驗中學習的能力。從這些能力出發,論文進行了有趣的實驗和評測。

論文分為 10 個章節:第一章為總括部分;第二章介紹了多模態,主要和視覺生成內容相關;第三章代碼,根據指令生成代碼、理解現有代碼;第四章數學能力;第五章與世界的交互;第六章與人類的交互;第七章判別力;第八章 GPT-4 局限性;第九章社會影響;第十章未來方向及結論。

下面我們通過具體的示例,看看 GPT-4 是不是真的邁進了 AGI 時代。

多模態和跨學科組成

為了測試模型將藝術與編程相結合的能力,該研究要求 GPT-4 用 javascript 寫一段代碼,以生成康定斯基風格的隨機圖像,下圖第一張為 Wassily Kandinsky 創作的,第二張和第三張分別由 GPT-4 和 ChatGPT 生成的:

圖片

下面為 GPT-4 代碼實現過程:

圖片

進行視覺概念理解:在這個作圖任務中, 輸入提示讓模型結合字母 Y、O、H 的形狀來畫一個人。其實在 GPT-4 的訓練過程從沒有關于字母形狀的認識,只能從相關訓練數據中、模糊地學習到字母與一些特定形狀有關,結果顯示 GPT-4 生成的結果還不錯:

圖片

用于草圖生成:GPT-4 還能與 Stable Diffusion 進行結合。下圖為 3D 城市建模截圖,輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、屏幕底部有 4 個按鈕,顏色分別為綠色、藍色、棕色和紅色。下面是生成結果:

圖片

你還能要求 GPT-4 用 ABC 記譜法生成和修改曲調:

圖片

編程能力

GPT-4 有非常強大的編程能力,包括根據指令編寫代碼和理解現有代碼。該研究具體測試了 GPT-4 在編程方面的能力。

代碼編寫?

下圖 3.1 是一個讓 GPT-4 寫 python 函數的例子,該研究使用 LeetCode 在線判斷代碼是否正確。

圖片

圖片

然后,該研究讓 GPT-4 將上表 2 中 LeetCode 上的準確率數據可視化為圖表,結果如下圖 3.2 所示。

圖片

前端 / 游戲開發?

如下圖 3.3 所示,該研究讓 GPT-4 用 JavaScript 在 HTML 中編寫 3D 游戲,GPT-4 在零樣本的情況下生成了一個滿足所有要求的游戲。

圖片

深度學習編程?

為深度學習編寫代碼需要數學、統計學知識,并熟悉 PyTorch、TensorFlow、Keras 等框架和庫。如下圖 3.4 所示,研究者要求 GPT-4 和 ChatGPT 編寫自定義優化器模塊,該任務對于人類深度學習專家來說也是具有挑戰性的。研究者為 GPT-4 和 ChatGPT 提供了自然語言描述,其中包括一系列重要的操作,例如應用 SVD 等等。

圖片

此外,該研究還測試了 GPT-4 把代碼轉換成 LaTex 公式的能力,結果如下圖 3.5 所示。

圖片

在理解代碼方面,該研究嘗試讓 GPT-4 和 ChatGPT「讀懂」一段 C/C++ 程序,并預測程序的輸出結果,二者的表現如下:

圖片

然后,該研究讓 GPT-4 解釋了一段 Python 代碼:

圖片

還有解釋一段偽代碼:

圖片

數學能力

一直以來,大型語言模型的數學能力似乎一直不是很好。那么 GPT-4 在這方面表現如何呢?本文經過一系列評測,結果表明 GPT-4 相比以前的模型在數學方面有了質的飛越,但是離專家水平還差得很遠,不具備數學研究的能力。

在與 ChatGPT 的對比中, GPT-4 成功的生成了解決方案,而 ChatGPT 生成了錯誤答案:

圖片

在 AP 問題上,GPT-4 vs ChatGPT 對比結果。GPT-4 使用了正確的方法,不過由于計算錯誤導致最終答案錯誤,而 ChatGPT 產生了一個不連貫的論點。

圖片

此外,本文還測試了 GPT-4 使用數學思維和技術來解決現實問題的能力:下圖展示了 GPT-4 如何成功地為一個需要廣泛跨學科知識的復雜系統構建合理的數學模型,而 ChatGPT 未能取得有意義的進展。

圖片

由于論文內容長達 154 頁,本文只對評測結果進行了大量展示,想要了解更多內容,讀者可以參考原論文。

最后附上論文目錄:

圖片

圖片

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-19 10:09:01

數學AI

2023-03-16 19:17:57

2023-08-15 10:33:06

微軟必應人工智能

2023-03-17 07:33:24

GPT-5GPT-4OpenAI

2023-07-20 12:16:31

GPT-4AI

2023-03-30 09:59:43

2023-03-28 08:23:38

2023-12-26 08:17:23

微軟GPT-4

2023-05-15 12:32:29

GPT-4開源

2022-12-26 13:17:15

ChatGPT人工智能預測

2024-02-29 12:56:00

AI訓練

2023-06-19 08:19:50

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2023-10-16 13:16:03

2023-12-11 19:08:59

AI模型

2023-06-01 12:46:46

GPT-4數學OpenAI

2025-04-16 09:35:03

2023-11-10 09:48:34

2023-12-12 13:57:00

GPT-3.5MistralAI

2023-12-17 22:04:04

微軟GPT-4
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本久久久久久久久 | 国产中文字幕网 | 久久久精品久久 | 国产精品久久久久久久久久 | 新91 | 一级黄片一级毛片 | 国产精品久久 | 午夜视频在线观看网址 | 日韩欧美亚洲一区 | 国产精品一区在线观看 | av在线免费观看不卡 | 久久久久中文字幕 | 国产精品免费看 | 久久久久国产成人精品亚洲午夜 | 在线观看视频一区二区三区 | 国产成人精品一区二区三 | 九九视频网 | 免费观看一级毛片 | 欧美在线一区二区视频 | 日韩精品一区二区三区在线观看 | 成人性视频在线播放 | 国产精品国产三级国产aⅴ原创 | 奇米影视77| 亚洲福利在线视频 | 日韩精品成人免费观看视频 | 午夜视频在线观看一区二区 | 免费看一区二区三区 | 91麻豆精品国产91久久久久久久久 | 91影视 | 九九热这里 | 亚洲成色777777在线观看影院 | 亚洲一区二区av | 午夜伊人 | 91精品国产色综合久久 | 99国内精品久久久久久久 | 成年免费大片黄在线观看岛国 | 91精品国产一区二区三区 | 日本三级电影在线观看视频 | 日韩精品一区二区三区中文在线 | 久久人体视频 | 精品久久久一区 |