與 ChatGPT 的對話:技術、應用和局限性
人工智能聊天機器人的出現引起了全世界的注意,它可以生成類似人類的句子并寫出連貫的文章。本文討論了聊天機器人的歷史概況以及Chat Generative Pre-trained Transformer(也稱為ChatGPT)背后的技術。此外,還強調了ChatGPT在醫療保健、教育和科研等各個領域的潛在應用。盡管取得了可喜的成果,但圍繞ChatGPT仍存在一些隱私和道德問題。此外,作者還強調了當前版本的ChatGPT的一些重要限制。還要求ChatGPT對作者試圖回答的幾個問題提供其觀點,并做出回應。
01 介紹
1950年,英國計算機科學家艾倫·圖靈(Alan Turing)就人類推理能力是否可以被計算機替代提出質疑:“機器能思考嗎?” [1]. 隨后,他提出了圖靈測試來衡量計算機或人工智能。在圖靈測試中,人類詢問者會收到來自人類和計算機(具有實時生成書面文本的能力)的響應。如果詢問者無法區分答案,則計算機系統通過圖靈測試。盡管一些計算機程序和聊天機器人(如 Eliza)在圖靈測試 ([2] [3]) 中取得了成功,但這些程序可以說是使用了某些技巧來通過測試 [4],而沒有展現任何重要意義的智能。隨著機器學習和自然語言處理 (NLP) 的進步,聊天機器人得到了廣泛的研究關注,并已用于各種商業和非商業應用 ([5]、[6]、[7]、[8] , [9]).盡管被廣泛采用,但大多數聊天機器人都沒有個性化,用戶滿意度仍然值得懷疑 [10]。這種局限性促使研究人員和開發人員將重點放在聊天機器人的參與度上,以使聊天機器人更健談。
2022 年 11 月,OpenAI 發布了一款名為 ChatGPT 的新型人工智能聊天機器人,引起了公眾的極大關注。與之前的任何聊天機器人不同,ChatGPT 以其對各種問題的連貫響應而令公眾感到驚訝。在這篇簡短的論文中,作者探討了使 ChatGPT 取得成功的技術,并重點介紹了 ChatGPT 的幾個領域和應用。作者還邀請 ChatGPT 回答作者試圖回答的一些問題,首先是它對聊天機器人歷史的回答。
?
Q1 您好 ChatGPT,請告訴我聊天機器人的歷史
ChatGPT: 當然!可以模擬人類對話的機器的想法可以追溯到幾十年前。事實上,第一個聊天機器人是在 20世紀60 年代由麻省理工學院計算機科學家 Joseph Weizenbaum 創建的。Weizenbaum 的聊天機器人,稱為 ELIZA,使用一組規則通過提問和給出預設回答來模擬對話。ELIZA 旨在模仿心理治療師,人們常常驚訝于它能如此令人信服地模擬人類對話。
多年來,聊天機器人不斷發展和改進。其中一項關鍵進步是自然語言處理 (NLP) 技術的發展,該技術使聊天機器人能夠更準確地理解和響應人類語言。在 20世紀90 年代和21世紀初期,聊天機器人開始用于客戶服務和支持,美國在線和微軟等公司開發聊天機器人來幫助用戶使用他們的軟件和服務。
近年來,人們對聊天機器人的興趣激增,部分原因是人工智能和機器學習的進步?,F代聊天機器人結合使用自然語言處理、機器學習和其他人工智能技術,以更自然、更微妙的方式理解和回應人類語言。它們現在被用于廣泛的應用,從客戶服務和支持到個人助理和娛樂。
總的來說,聊天機器人的歷史是一段引人入勝的歷史,它反映了人工智能的發展以及作者越來越渴望創造出能夠以更像人類的方式理解作者并與作者互動的機器。
第一印象是 ChatGPT 的響應似乎非常連貫、引人入勝且沒有語法錯誤。還注意到 ChatGPT 在提供事實信息方面做得很好。它設法準確地引用名稱和日期。有趣的是,ChatGPT 并沒有談論自己,據了解,它在 2021 年 9 月 之后呈現的信息有限。最后,令人著迷的是,ChatGPT 以其觀點的總結結束了其回復。
02 ChatGPT技術:從語言模型到強化學習
機器學習是人工智能 (AI) 的一個子領域,被定義為計算機系統無需明確教導或編程即可從經驗中學習的能力。隨著計算能力的進步、數據可用性的提高和算法的改進,深度學習已成為一種高性能的預測工具。與傳統機器學習不同,深度學習算法使用人工神經網絡,通常參數容量很大。深度學習模型通常需要更多的訓練數據,但可以提供更好的泛化能力。Transformer 或大型語言模型是一個特殊的深度學習模型家族,已成為文本數據的最先進解決方案。從文本分類到文本生成,這些模型提供了優于其他 AI 模型的性能。
語言模型通常在維基百科等大型語言語料庫上進行預訓練,但可以針對特定任務進行微調。兩個最著名的語言模型包括來自Transformers的雙向編碼器表示 (BERT) [11] 和生成式預訓練Transformer (GPT) [12]。前者主要用于語言中的上下文識別和分類任務,而后者更擅長機器翻譯和問答等語言生成任務。
ChatGPT 之前的幾個聊天機器人使用語言模型。然而,使 ChatGPT 能夠做出連貫且引人入勝的響應的主要因素歸功于強化學習的使用。在這種情況下,人類評估人員對 ChatGPT 的響應進行了排名,這使其能夠優化其某些參數,從而從本質上成為更好的對話者。ChatGPT 是在 GPT-3 之上開發的,GPT-3 是一種具有 1750 億個參數的生成自回歸語言模型 [13]。為了訓練如此復雜的網絡,OpenAI 與 Microsoft 合作,據報道其訓練資源超過 350GB 內存,耗資 1200 萬美元。
?
Q2 你好 ChatGPT,你是如何被開發出來的?
ChatGPT: 你好!我是由 OpenAI 開發的,OpenAI 是一家專注于以安全有益的方式推進人工智能發展的研究機構。具體來說,我是由 OpenAI 的一組研究人員和工程師開發的,他們使用一種稱為 transformer 的深度學習技術和大量文本數據來訓練我。Transformer 是一種神經網絡,特別擅長處理序列數據,例如語言。
為了訓練我,團隊向我提供了大量來自各種來源的文本,包括書籍、文章和網站。然后他們使用一種稱為無監督學習的過程來教我識別文本數據中的模式。通過這個過程,我學會了理解和生成自然語言。
在我最初的開發之后,我經歷了嚴格的測試和改進過程,以確保我使用起來準確、可靠和安全。自發布以來,我一直在不斷更新和改進,以更好地為我的用戶服務。
與第一個答案一樣,作者對 ChatGPT 回復的引人入勝的性質和結構印象深刻。作者注意到 ChatGPT 提到使用無監督學習來識別模式,這是準確的,并且在 GPT 論文 [12] 中有所概述。另一個有趣的觀察結果是,ChatGPT 將最后階段描述為“測試和優化過程”,而沒有提及強化學習或其他細節。
03 ChatGPT 的應用
盡管最近才發布到公共領域,但ChatGPT已經獲得了大量的研究關注。在本節中,作者描述了最近研究ChatGPT用于各種研究和應用的工作。Thorp[14]對ChatGPT對教育、文學和科學寫作等研究主題的反應進行了定性評估。當被要求完成一部經典戲劇中的一個場景時,ChatGPT提供了一篇有趣的文章。在教育方面,ChatGPT可以提供真實的答案,但在撰寫論文方面還有一段路要走。在另一項研究[15]中,研究人員被要求區分ChatGPT和人類撰寫的科學論文摘要。這一結果令人驚訝,因為人類評估人員只確定了由ChatGPT生成的68%的摘要。De Angelis等人[16]討論了根據ChatGPT對語言模型的評估,并強調了醫學和公共衛生領域潛在的倫理和實踐挑戰。主要挑戰包括人工智能驅動的錯誤信息或“信息傳播”的可能性,這些信息通常很難辨別。
在醫學和公共衛生領域,ChatGPT已經被探索用于各種應用。Khan等人[17]討論了ChatGPT在醫學教育中的幾個潛在應用,包括個性化學習和生成案例研究。作者還指出,ChatGPT可以用于臨床管理,用于文檔和決策支持。Rao等人[18]評估了ChatGPT在放射學中提供臨床決策支持的有效性。作者向ChatGPT提供了文本提示,如“對于'變異乳腺癌癥篩查。平均風險女性:乳腺癌終生風險<15%的女性。',確定最合適的單一成像程序”,以評估其在乳腺癌癥篩查和乳腺疼痛檢測中的功效。
ChatGPT在前一項任務中表現相對較好,有88.9%的正確反應,但對乳房疼痛的正確反應僅為58.3%。還討論了ChatGPT和生成人工智能在幫助泌尿科醫生方面的作用[19]。ChatGPT主要可以幫助泌尿科醫生完成低復雜度的任務,讓他們有更多的時間專注于患者。Hulman等人[20]利用ChatGPT回答有關糖尿病的常見問題,并要求醫護人員區分人類和ChatGPT生成的答案。作者發現,評估人員在59.5%的時間內能夠正確識別ChatGPT生成的答案。作者還得出結論,盡管ChatGPT沒有接受專門的醫學數據培訓,但它具有臨床知識,可以識別有關疾病管理的信息。生成關于特定主題的醫學報告在藥學教育中可能很有用。為此,Zhu等人[21]促使ChatGPT撰寫了一篇關于“基于脂質的藥物遞送系統”的小型綜述。作者得出結論,ChatGPT可以很好地構建主題,并為讀者提供有意義的結論。然而,由于缺乏可靠的引文,準確性存在疑問。Shen等人[22]總結了ChatGPT在醫學中的其他潛在使用案例和意義。
研究人員還調研了ChatGPT是否可以回答醫學考試問題。Kung等人[23]測試了ChatGPT在美國醫學執照考試中的表現,該考試由美國醫學執照所需的三項標準化考試組成。在沒有來自人類的專門輸入條件下,ChatGPT以60%的準確率通過了考試。任何包含視覺信息的問題,如中間圖像,都被刪除了。研究結果證明了ChatGPT在醫學教育和臨床決策輔助方面的潛力。然而,在中國國家醫療許可證考試中,ChatGPT的表現要低得多,有45.8%的回答正確[24]。在眼科學中,ChatGPT使用眼科知識評估項目的問題進行了測試,該項目包含兩項考試,準確率分別為55.8%和42.7%[25]。對于美國心臟協會的基本和高級心血管生命支持檢查,ChatGPT的表現低于84%的通過線[26]。然而,它能夠提供合理精度的詳細答案,這使它成為自學和考試準備的潛在有用工具。Mbakwe等人[27]認為,ChatGPT在回答醫學考試方面的成功可以歸結為這些考試的本質是死記硬背,而不是測試分析和批判性思維。
聊天機器人備受期待的應用之一是在教育領域。人工智能和技術可以在教育的幾個方面發揮作用,包括個性化學習[28]。在這種情況下,ChatGPT可以提高學生的參與度,提供體驗式學習,并幫助教育工作者評估考試和內容準備[29]。幾位研究人員將他們的研究重點放在了ChatGPT對教育的影響上([30],[31],[32],[29])。ChatGPT在教育中的潛在問題包括反應偏見([31][32])、作弊[30]、私人數據泄露([31][22])和透明化[32])。聊天機器人也可以有效地為同伴輔導做出貢獻。Pardos和Bhandari[33]發現,ChatGPT在初等和中級代數主題中提供的70%的提示可以為學生帶來積極的學習收益。Frieder等人[34]評估了ChatGPT在幫助數學家完成問答和尋找定理等任務方面的數學能力。研究人員發現,ChatGPT的數學水平低于普通研究生的水平。公眾擔心ChatGPT被用于剽竊,有必要創建檢測此類剽竊的工具。為此,Khalil和Er[35]試圖利用ChatGPT作為剽竊檢測工具,并發現ChatGPT創建的響應通常不會被其他剽竊檢查人員所檢測到。與此同時,當ChatGPT被要求檢查寫作是否是自己生成的時,它的表現比其他抄襲檢測軟件要好。Yang等人[36]探討了ChatGPT總結書面文本的能力,發現ChatGPT的表現與現有的基于Rouge分數的微調方法不相上下。作者還強調,目前5000的最大輸入token長度是評估ChatGPT文本匯總能力的一個限制。ChatGPT能提高學生作文水平嗎?為了回答這個問題,Basic等人[37]對使用ChatGPT的對照組和實驗組的9名學生進行了一項研究。作者得出結論,ChatGPT并不一定能提高論文質量,因為對照組在大多數標準上都優于實驗組。
Bang等人[38]評估了ChatGPT在邏輯推理和常識推理等十項推理任務上的有效性。作者發現,ChatGPT在演繹推理任務上表現相當好,但在歸納推理上表現極差。ChatGPT在常識推理方面也做得很好。例如,ChatGPT被問及以下問題;請判斷這個謂詞是(可能)可信還是不可信:“刀砍石頭”。對此,它的回答是:刀能砍穿石頭是不可信的。刀具是用來切割食物、紙張或木材等較軟的材料的。巖石比這些材料堅硬得多,刀無法在巖石上留下凹痕,更不用說把它砍了。
ChatGPT在新聞和錯誤信息檢測方面仍然是一個潛在的有益工具,尤其是在參考文獻和事實核查方面。在新冠肺炎大流行期間,疫苗錯誤信息導致社交媒體對疫苗猶豫不決[39]。Sallam等人[40]對ChatGPT對疫苗陰謀論和強制接種的反應進行了描述性分析。研究發現,ChatGPT對陰謀論不屑一顧,但通過強調利弊,為疫苗授權提供了不同的意見。
在軟件開發中,ChatGPT可以用于輔助和軟件測試。Jalil等人[41]通過向ChatGPT提出教科書問題來評估其在軟件測試方面的能力。在這種情況下,結果并不樂觀,因為ChatGPT只能正確回答37.5%的問題。Jiao等人[42]評估了ChatGPT在幾個基準集上的翻譯性能。在高資源的歐洲語言中,ChatGPT的性能與谷歌翻譯等商業應用程序不相上下。然而,對于低資源或遠程語言,性能明顯較差。在這一點上,讓作者詢問ChatGPT在各個領域的潛在用途。
Q3 ChatGPT,你可以以什么方式用于醫療保健、教育和研究?
ChatGPT: 作為一個人工智能語言模型,我可以在醫療保健、教育和研究中以各種方式使用。以下是一些例子:
在醫療保健領域:
1)醫療診斷和治療:可以訓練人工智能語言模型來分析醫療數據,如醫療圖像、電子健康記錄和其他患者信息,以協助醫療診斷和處理。這可以幫助醫療保健專業人員就患者護理做出更準確、更明智的決定。
2) 患者互動:人工智能語言模型可用于幫助患者與醫療保健提供者互動,并為他們提供有關健康狀況、治療方案和藥物說明的信息。
3) 醫學研究:人工智能語言模型可以幫助研究人員處理和分析大量的醫學數據,并確定疾病爆發、藥物療效和患者結局的模式和趨勢。
在教育領域:
1)語言學習:人工智能語言模型可以通過為語言學習者提供個性化反饋、練習和對話模擬,幫助他們提高語言水平。
2) 教育內容創建:人工智能語言模型可用于生成教育內容,如測驗、抽認卡和學習指南,這些內容是為滿足個人學習者的需求而定制的。
3) 學術研究:人工智能語言模型可用于分析學術文本,并生成摘要、見解和建議,幫助研究人員獲得新的見解和發現。
在研究領域:
1)數據分析:AI語言模型可用于分析來自各種來源的大量數據,并確定人類研究人員不容易看到的模式,趨勢和相關性。
2)文本挖掘:AI語言模型可以幫助研究人員從大量非結構化文本數據(例如研究論文,新聞文章和社交媒體帖子)中提取相關信息。
3)研究合作:AI語言模型可以通過提供實時翻譯服務,自動校對和編輯以及內容摘要來幫助研究人員相互合作。
Q4 新聞和軟件開發領域怎么樣??
在新聞學領域:
1)新聞寫作和摘要:人工智能語言模型可以用于自動生成新聞文章和摘要,為記者和新聞機構節省時間和資源。
2) 事實核查:人工智能語言模型可以幫助對新聞報道進行事實核查,并驗證所提供信息的準確性。
3) 個性化:人工智能語言模型可以根據個人讀者的興趣、閱讀歷史和位置,幫助他們個性化新聞內容
在軟件開發領域:
1)聊天機器人:人工智能語言模型可以用來為聊天機器人提供動力,聊天機器人可以與用戶互動,并用自然語言回答他們的問題。
2) 代碼生成:可以使用人工智能語言模型自動生成代碼,減少軟件開發所需的時間和精力。3) 漏洞檢測:人工智能語言模型可用于檢測代碼中的漏洞和錯誤,提高軟件應用程序的質量和可靠性。
Q5 您還可以在哪些領域使用?
ChatGPT: 作為一個人工智能語言模型,我可以用于醫療保健、教育、研究、新聞和軟件開發之外的廣泛領域。以下是幾個例子:
1)客戶服務:人工智能語言模型可以用來為聊天機器人和虛擬助理提供動力,為用戶提供客戶服務和支持
2)金融服務:人工智能語言模型可用于分析金融數據和檢測欺詐行為,并為個人提供個性化的金融建議。
3)營銷和廣告:人工智能語言模型可以幫助營銷人員生成廣告文案和內容,分析客戶情緒和行為,并為個人用戶個性化營銷活動。
4)法律服務:人工智能語言模型可用于分析法律文件,并為個人和企業提供法律建議。
5)社交媒體:AI語言模型可用于分析社交媒體內容,監視在線對話以及檢測用戶行為的模式和趨勢。
6)游戲:AI語言模型可用于為視頻游戲生成對話和敘事內容,以及游戲中的Power Virtual Assistant和聊天機器人。
7)運輸:AI語言模型可用于為車輛的語音助手提供動力,并幫助駕駛員導航和控制各種車輛系統。
8)機器人技術:AI語言模型可用于實現人類與機器人之間的自然語言互動,并幫助機器人理解和響應人類的命令和請求。
ChatGPT因其在撰寫科學文章方面的潛在用途而引起了很多人的關注。根據Stokel Walker[43]的說法,有四篇論文將ChatGPT列為其寫作貢獻的合著者。然而,像《科學》這樣的主要出版商已經排除了將人工智能聊天機器人列為合著者的可能性,而包括Taylor&Francis在內的其他出版商正在審查他們在這個問題上的政策。包括《韓國放射學雜志》在內的幾家期刊都發表了政策,拒絕任何來自ChatGPT或其他人工智能模型的共同作者的貢獻[44]。另一方面,其他期刊發表了指導方針,建議承認用于研究的任何人工智能工具,但不允許將其列為合著者([45],[46])。研究人員還呼吁期刊澄清他們的論文中包含人工智能產生的內容的比例[47] ,并發布人工智能在寫作論文中的使用指南[48]。
Korinek [49]探索了像 ChatGPT for Economic research 這樣的語言模型的潛在用例。作者認為,研究人員可以通過使用語言模型來完成編輯和生成標題等任務,從而提高工作效率。Chen [50]討論了在科學寫作中使用人工智能工具的一些倫理問題和潛在好處。作者認為聊天機器人可以幫助母語不是英語的作家。論文由作者用中文撰寫,用 ChatGPT 進行總結,并通過人工智能工具翻譯成英文。Ayd?n 和 Karaarslan [51]利用 ChatGPT 撰寫了一篇關于數字孿生在醫療保健中的作用的文獻綜述。盡管結果令人鼓舞,作者發現 ChatGPT 在復述句子時在抄襲檢查器上有顯著的匹配。Dowling 和 Lucey [52]發現 ChatGPT 在產生合理的研究想法、文獻綜述和測試框架方面是有效的。他們還指出,如果加入領域專門知識作為投入,研究質量將大大提高。雖然 ChatGPT 可能會加速科學論文的研究和撰寫,但應該有人為的監督和事實核查,因為像 ChatGPT 這樣的語言模型可能會產生誤導性信息([53] ,[54] ,[55] ,[56])。下表1總結了幾個領域中使用 ChatGPT 的現有工作。
表1 ChatGPT 在現有工程中的應用
04 ChatGPT的局限性
ChatGPT無疑具有多樣化和有趣應用的潛力。但是,用戶應該考慮當前模型的局限性。在本節中,作者概述了ChatGPT當前的一些限制。
ChatGPT聽起來可能很有趣,也很有說服力,但不要相信它的話!事實上,ChatGPT在形成有意義的對話句子方面的能力令人印象深刻,但它可能經常會產生“幻覺”回應[56]。因此,強烈建議對來自ChatGPT的任何響應進行驗證和事實核查。
ChatGPT在簡單的推理、邏輯、數學和呈現事實信息方面會出錯[57]。預計將于2023年某個時候發布的下一個版本GPT-4的很可能會顯著改進ChatGPT。據多位消息人士透露,GPT-4網絡將比其前身復雜得多,包含約100萬億個參數。相比之下,GPT-3模型由1750億個參數組成。
ChatGPT目前在處理最多5000個文本token作為輸入方面受到限制。雖然這在大多數應用程序中不是問題,但在文本摘要等任務中可能會很有挑戰性。此外,ChatGPT的當前接口不允許上傳圖像或音頻文件。ChatGPT可以基于文本提示生成視覺圖像的代碼表示,但其繪圖技能目前有限[38]。在這種情況下,研究人員最近引入了一種在多模態語料庫(如圖像字幕對)上訓練的多模態語言模型,該模型可以感知一般模態[58]。多模式系統可以提供應用程序,例如通過文本提示生成圖像和從流行音樂中分離詞干。
ChatGPT傾向于給出冗長而詳細的回答,除非明確要求不要這樣做。此外,ChatGPT表達的情緒比普通人少,而且往往更客觀[59]。因此,ChatGPT無法取代對人際關系的需求,也無法成為你的朋友!同樣,它也不能用于需要親密人際關系的個人治療或咨詢。
雖然 ChatGPT 可以為您提供2021年9月之前發生的事件的信息,但是不要指望它會給您提供最新的消息!當被問及土耳其最近發生的地震時,ChatGPT 回答說: “我很抱歉,但作為一個人工智能語言模型,我無法獲得來自未來的信息?!?。據我所知截止日期是2021年9月,2023年土耳其沒有發生任何大地震。然而,地震可能在任何時候發生,重要的是要準備和了解潛在的風險和安全措施。’
?
Q6 嗨,ChatGPT,您的局限性是什么?
1)有限的上下文: 雖然我能夠理解和回應廣泛的主題和問題,但我的回應僅限于問題或陳述中提供的信息和上下文。除了給定的信息,我沒有能力理解上下文。
2)缺乏情感和同理心: 我沒有情感,我不能同情用戶或理解他們的感受。
3)無法解釋非語言線索: 作為一個人工智能語言模型,我沒有能力解釋非語言線索,如肢體語言或面部表情,這是人類交流中必不可少的。
4)對數據質量的依賴: 我的回答只能和用來訓練我的數據一樣好。如果用來訓練我的數據是有偏見或不完整的,我的回答也可能是有偏見或不完整的。
5)不能執行物理任務: 我是一個語言模型,沒有物理身體,所以我不能執行物理任務或以任何方式與物理世界交互。
05 結束語: 對倫理和隱私問題的考慮
在本文中,作者提供了一個聊天機器人的歷史發展概述。此外,還研究了使 ChatGPT 得以出現并取得成功的重大技術發展。然后,描述了 ChatGPT 在幾個領域和應用中的潛力。在醫療保健中,ChatGPT 可用于醫療篩查、回答一般問題和準備考試。在教育中,ChatGPT 可用于輔導和檢測剽竊行為。ChatGPT 還可以幫助研究人員進行寫作、總結信息和翻譯。然而,關于 ChatGPT 還有許多道德和隱私問題需要解決。例如,一些用戶報告了 ChatGPT 的反饋,其中包含種族和性別偏見。此外,鑒于 ChatGPT 的有效性,它可能被用于教育中的不道德目的,包括作弊。在研究中,ChatGPT 提出了有關版權和剽竊的倫理問題。在隱私問題方面,ChatGPT 接受了超過3000億字的訓練,可能包含互聯網用戶的個人信息。最后,ChatGPT 繼續改進用戶交互,但包含個人信息(如聯系人)的提示可以由模型處理,甚至可以學習。
本文轉自 AI生成未來 ,作者:AIGCer
