逆天的語言AI模型來了！編故事以假亂真，問答翻譯寫摘要都行

作者：乾明，安妮，栗子 2019-02-15 14:33:56

人工智能

AI寫起文章來文思泉涌毫無違和感，無需針對性訓練就能橫掃各種特定領域的語言建模任務，還具備閱讀理解、問答、生成文章摘要、翻譯等等能力。

[[257320]]

本文經AI新媒體量子位（公眾號 ID: QbitAI）授權轉載，轉載請聯(lián)系出處

AI一本正經的“胡編”起來，已經逼真的讓人不敢相信。

剛剛，OpenAI發(fā)布了一個“逆天”的語言AI，整個模型包含15億個參數。

這個AI寫起文章來文思泉涌毫無違和感，無需針對性訓練就能橫掃各種特定領域的語言建模任務，還具備閱讀理解、問答、生成文章摘要、翻譯等等能力。

因為假新聞實在編的太真實，OpenAI說：我們不敢放出完整模型。

它的作品究竟什么樣呢?

人類只給了它兩句話的開頭：

科學家們有個令人震驚的發(fā)現(xiàn)，在安第斯山脈一個偏遠且沒被開發(fā)過的山谷里，生活著一群獨角獸。更加讓人訝異的是，這些獨角獸說著流利的英文。

AI就順著這胡言亂語的設定，一本正經地編了下去 (欲賞全篇請見文末) ：

這些生物有著獨特的角，科學家們就以此為它們命名，叫Ovid’s Unicorn。長著四只角的銀白色生物，在這之前并不為科學界所知。

……

雖然，這些生物的起源還不清楚，但有些人相信，它們是一個人和一個獨角獸相交而誕生的，那時人類文明還不存在。Pérez教授說：“在南美洲，這樣的現(xiàn)象很常見。”

……

天馬行空卻言之鑿鑿。幾乎沒有矛盾信息，甚至在結尾嚴謹地表明：

如果要確認它們是消失種族的后裔，DNA檢測可能是比較有效的方法。

這位AI寫手，名叫GPT-2。

它訓練用的數據，都是人類寫作的原始文本。無監(jiān)督學習過程，純潔無污染。

對此，深度學習之父Hinton獻出了他注冊Twitter以來的第三次評論：

這應該能讓硅谷的獨角獸們生成更好的英語了。

看來是讀了AI編的獨角獸新聞報道有感。

DeepMind研究員、星際AI AlphaStar的主要爸爸Oriol Vinyals也大肆贊美了同行：

規(guī)模化+計算力，深度學習不會讓人失望。恭喜Alec Radford、Ilya Sutskever等等!

由于AI生成的假消息太過真實，OpenAI的開源動作也變得十分謹慎。與以往不同，這一次開源的內容，沒有完整的預訓練模型，只放出了一個1.17億參數的“縮小版”。

媒體也紛紛認為，GPT-2是個危險的存在：

來自The Verge

如果所托非人，GPT2便會成為一臺挖掘機，挖出無盡的痛苦和仇恨。

而且，造假新聞只是GPT-2的冰山一角，你想要的技能它都有。

在不需要對任何其他任務進行針對性訓練的情況下，GPT-2還能完成閱讀理解、常識推理、文字預測、文章總結等多種任務，效果好到讓人懷疑：這個模型后面單怕藏著一位語文老師吧!

語言模型全能王

[[257321]]

這位N項全能的“語文老師”，就是“語言建模”(language modeling)。

OpenAI的研究人員表示，在各種特定領域數據集的語言建模測試中，GPT-2都取得了優(yōu)異的分數。作為一個沒有經過任何領域數據專門訓練的模型，它的表現(xiàn)，比那些專為特定領域打造的模型還要好。

下圖為研究人員統(tǒng)計的不同類型任務的成績對比圖，其中，(+)表示此領域得分越高越好，(-)表示此領域得分越低越好：

△ GPT-2在不同語言建模任務上的測試結果(從左到右：數據集名稱、指標類型、GPT-2測試結果、此前比較好的結果、人類水平)

除了能用于語言建模，GPT-2在問答、閱讀理解、摘要生成、翻譯等等任務上，無需微調就能去的非常好的成績。

從人類的感官角度來評判，GPT-2的效果也出奇得好。

不信?不信一起來考考它。

第一題(閱讀理解)：一篇讓小學四年級學生卡了半天的閱讀理解

閱讀下列材料回答問題：

3月24日，火炬在希臘奧林匹亞奧林匹克運動會的發(fā)源地點燃后，將傳遞至雅典的帕納辛奈科體育場，并于3月31日傳遞至北京。從北京開始，火炬將經過六大洲，途經絲綢之路沿線的城市。此次接力還會將火炬送上珠穆朗瑪峰，這是接力的最后一站。

問題1：接力從哪里開始?
問題2：這個地方有什么值得注意的嗎?
問題3：這場接力進行了多少天了?
問題4：他們有沒有訪問過任何著名的地標?

這樣一段考驗對時政、地理和生詞理解能力的閱讀理解，一個成年人認真讀下來尚且還需要轉換思維多思考一番，但對GPT-2來說，找出正確答案是分分鐘的事：

希臘奧林匹亞;是奧林匹克運動會的發(fā)源地;七天;帕納辛奈科體育場。

第一題：全對✅

第二題(常識推理)：容易讓人摸不著頭腦的模糊代詞

閱讀下面句子，回答“它”指代的部分：

1、獎杯放不進棕色旅行箱，因為它太大了。

2、獎杯放不進棕色手提箱，因為它太小了

5秒思考，請作答。

這兩句“含糊不清”的句子并沒有難到GPT-2，它的答案分別為獎杯、行李箱。

第二題，沒毛病✅。

第三題(文章總結)：考試中讓中學生頭大的主旨概括

閱讀下類材料，概括文章內容。

(這份材料來自外媒Daily Mail的一篇報道，全文字圖交雜，Word粗略統(tǒng)計共1300多字。文章篇幅限制，量子位在這里把材料“閹割”了)

36000年前，史前人類在現(xiàn)代法國一個洞穴的粗糙石灰?guī)r墻壁上勾勒出了一系列令人難以置信的史前野獸……(省略若干字)…………現(xiàn)在，在先進技術的幫助下，Chauvet-Pont-d’Arc洞穴的藝術作品被復制，創(chuàng)造了世界超大的復制洞穴。

不錯，一段看起來就“很閱讀理解”的樸素文風，GPT-2的處理情況如何?還不錯：

位于法國南部Vallon-Pont-D’arc的原始遺址是聯(lián)合國教科文組織世界遺產，是已知最古老、保存最完好的人類裝飾洞穴。復制洞穴距離法國南部Vallon-Pont-D’Arc的原址幾英里，洞穴內包含14種不同動物的圖像，包括長毛犀，猛犸象和大型貓科動物。

第三題，非常好✅

怎么樣，感受到GPT-2的威力了么?關于GPT-2做題的例子還有很多，文末的OpenAI博客原文，還可以查看更多。

它是怎么做的?

GPT-2，是GPT的“進化版”，比較大區(qū)別就在于規(guī)模大小。OpenAI在官方博客中表示，兩者相比，GPT-2的參數擴大10倍，達到了15億個，數據量擴大10倍，使用了包含800萬個網頁的數據集，共有40GB。

但在很大程度上，模型還是和GPT一樣：

使用語言建模作為訓練信號，以無監(jiān)督的方式在大型數據集上訓練一個Transformer，然后在更小的監(jiān)督數據集上微調這個模型，以幫助它解決特定任務。

△GPT模型

上圖左部分，是研究中使用的Transformer架構以及訓練目標。右邊部分，是針對特定任務進行微調。

將所有結構化輸入轉換為token序列，由預訓練模型處理，然后經過線性+softmax層處理。

就GPT-2而言，它的訓練目標很簡單：根據所有給定文本中前面的單詞，預測下一個單詞。

由于訓練數據集的多樣性，使得這個目標非常簡單的模型，具備了解決不同領域各種問題的能力。

一把雙刃劍

顯然，GPT-2這樣一個強大的通用模型，會帶來巨大的社會影響。

比如，它能用于開發(fā)AI寫作助理、更強大的語音助手、提高不同語言之間無監(jiān)督翻譯的性能，甚至構建更好的語音識別系統(tǒng)。

但同樣，它同樣也能用來干壞事，就像用圖像合成的研究造假一樣，比如deepfake，讓多少人苦不堪言。

GPT-2可以用來生成具有誤導性的新聞報道、自動生成垃圾郵件、偽造內容發(fā)布到社交媒體上等等等等。

這個研究，加上先前圖像、音頻、視頻合成與生成的研究，能夠大幅度降低制作虛假內容的成本。

以后你在網絡上看到的東西，是真是假，可能就很難分辨了。

為了避免這種情況發(fā)生，OpenAI表示，不會發(fā)布經過訓練的模型，為了能夠讓更多的研究人員進行試驗，發(fā)布了一個更小的模型以及技術論文。

這個“防止惡意應用，不開放完整模型”的決定也引來了不少質疑。

其中最激烈的，來自英偉達研究負責人Anima Anandkumar。

她說：“Malicious BS”。大致相當于中文的“惡意個P”。

這位Anima，曾經逼得頂會NIPS改了名，正面硬剛Yann LeCun，最近在呼吁學術會議強制投稿者公開源代碼。

[[257323]]

不愿開放完整模型的OpenAI，被Anima斥責“為了站道德高地本末倒置”，站在了open的對立面，傳播恐懼、誤導媒體。

你怎么看?

無論觀點如何，如果你對這項研究感興趣，請先收好傳送門：

模型代碼：

https://github.com/openai/gpt-2

技術論文：

Language Models are Unsupervised Multitask Learners

這項研究的作者分別是Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、Ilya Sutskever。

其中Ilya Sutskever是OpenAI的首席科學家，是AlexNet、seq2seq、AlphaGo、TensorFlow等人工智能領域重要成果的共同創(chuàng)造者。

論文地址：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

最后，附上AI撰寫的關于獨角獸的全文：

(人類給的開頭：)

(AI編的下文：)

這些生物長著獨特的角，科學家們就以此為它們命名，叫Ovid’s Unicorn。長著四只角的銀白色生物，在這之前并不為科學界所知。

現(xiàn)在，過了近兩個世紀，這個奇異的現(xiàn)象到底是怎么發(fā)現(xiàn)的，謎底終于解開了。

來自拉巴斯大學的進化生物學教授Jorge Pérez和他的幾個小伙伴，在探索安第斯山脈的時候發(fā)現(xiàn)了一個小山谷，沒有其他動物也沒有人類。

Pérez注意到，這山谷看上去曾是個噴泉的所在，旁邊是兩座石峰，上面有銀白的雪。

然后，Pérez他們就深入探尋這個山谷。“我們爬上其中一座山峰的時候，下面的水很藍，上面還有一些結晶。”Pérez說。

發(fā)現(xiàn)獨角獸種群的時候，Pérez和他的小伙伴都驚呆了。都不用靠近，從高空就可以望見這些生物——看上去離得很近，就快摸到它們的角了。

在查看這些奇怪生物的時候，科學家們發(fā)現(xiàn)它們講著普通的英文。Pérez說：“比如說，我們注意到，它們有一種共同‘語言’，有點接近方言。”

Pérez認為，這些獨角獸起源于阿根廷。在那里，人們相信這些動物是一個消失種族的后裔，在人類到達之前，這個種族就生活在那里。

雖然，這些生物的起源還不清楚，但有些人相信，它們是一個人類和一個獨角獸相交而誕生的，那時人類文明還不存在。Pérez說：“在南美洲，這樣的事情是很常見的。”

然而，Pérez也指出，要確認它們是不是那個消失種族的后裔，DNA檢測可能是非常有效的方法。“不過，它們看上去能用英語交流，我相信這也是一種進化的信號，或者至少也是社會組織的一種變化。”他說。

責任編輯：武曉燕來源：量子位

AI模型翻譯語言

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

逆天的語言AI模型來了！編故事以假亂真，問答翻譯寫摘要都行