成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChatGPT-4、Bard、Claude-2 和 Copilot空間任務的正確性比較

人工智能
聊天機器人的影響主要是促進地理科學領域的人工智能的發展和應用,提升地理科學領域的人工智能的水平和貢獻,擴大地理科學領域的人工智能的影響和價值。例如,ChatGPT-4能夠利用地理空間知識圖譜進行推理,這可能是一種促進地理科學領域的人工智能的發展和應用的方式,它能夠整合和利用大量的地理數據和知識,為地理問題的解決提供智能的支持和輔助。

大語言模型 (LLM) 在內的生成人工智能最近因其多功能的任務解決能力(包括編碼、空間計算、樣本數據生成、時間序列預測、地名識別或圖像分類)而引起了科學界的極大興趣。人工智能聊天機器人是一種利用大型語言模型(LLM)來生成自然語言對話的技術,它們在各個領域都有著廣泛的應用和影響,如教育、娛樂、商業、醫療等。隨著LLM的不斷發展和創新,聊天機器人的能力和性能也在不斷提高,它們能夠處理各種類型的任務,如問答、編程、寫作、創作等。聊天機器人在空間任務方面的表現如何呢?空間任務是指涉及地理信息系統(GIS)的知識、操作、數據獲取、制圖、空間推理、空間素養、地名識別、城市地理、時間序列預測等方面的任務,它們對于人類的社會、經濟、環境等方面的發展和決策有著重要的意義和價值。

為了探索和評估聊天機器人在空間任務方面的能力和局限性,一篇最新的論文對四個主要的人工智能聊天機器人(ChatGPT-4, Bard, Claude-2, 和 Copilot)進行了一項全面的正確性比較。這篇論文的作者是來自美國戴維佛羅里達大學和佛羅里達國際大學的Hartwig H.Hochmaira教授、 Levente Juhászb 教授和Takoda Kempa博士,他們是人工智能和計算機視覺領域的知名專家,曾經發表過多篇高水平的論文和專著。他們在這篇論文中使用了一個自己構建的數據集,包含了54個空間任務,涵蓋了空間素養、GIS概念、制圖、函數解釋、代碼解釋、代碼生成和代碼翻譯等七個類別,他們邀請了人類專家對聊天機器人的回答進行了正確性評分,并使用了統計方法分析了聊天機器人的正確性和回答長度的差異。他們的研究為地理科學領域的人工智能應用提供了有價值的見解和建議。

 01  聊天機器人的總體表現

首先我們來看聊天機器人在空間任務中的總體表現,即它們在所有任務中的正確性和回答長度。正確性是指聊天機器人的回答是否與人類專家的標準答案一致,回答長度是指聊天機器人的回答所包含的字數。作者使用了卡方檢驗和威爾科克森秩和檢驗等統計方法,分析了聊天機器人的正確性和回答長度的差異,結果如下:

在正確性方面,ChatGPT-4是所有聊天機器人中表現最好的,它在所有任務中的正確率達到了89.8%,而Bard則是表現最差的,它的正確率只有59.3%。Claude-2和Copilot則介于兩者之間,它們的正確率分別為69.4%和71.3%。這些結果表明,ChatGPT-4在空間任務方面具有顯著的優勢,而Bard則需要大幅改進。

在回答長度方面,Copilot是所有聊天機器人中回答最簡潔的,它在空間素養問題中的回答的平均字數為53.5,而Bard則是回答最冗長的,它的平均字數為116.9。ChatGPT-4和Claude-2則介于兩者之間,它們的平均字數分別為95.1和95.2。這些結果表明,Copilot在空間任務方面具有較高的效率,而Bard則需要更加精簡。

從這些結果可以看出,聊天機器人在空間任務方面的表現存在著較大的差異,這可能與它們的模型結構、訓練數據、微調方法等因素有關。其中ChatGPT-4是基于GPT-4模型的聊天機器人,它擁有1750億個參數,是目前最大的語言模型之一,它能夠處理各種類型的數據,如文本、圖像、視頻等,它也能夠利用地理空間知識圖譜進行推理。Bard是基于BERT模型的聊天機器人,它擁有11億個參數,是一個較小的語言模型,它主要處理文本數據,它也能夠利用Google搜索引擎進行信息檢索。Claude-2是基于Claude模型的聊天機器人,它擁有66億個參數,是一個中等大小的語言模型,它主要處理文本數據,它也能夠利用Bing搜索引擎進行信息檢索。Copilot是基于Codex模型的聊天機器人,它擁有120億個參數,是一個較大的語言模型,它主要處理編程代碼,它也能夠利用DALL-E模型進行圖像生成。

 02  聊天機器人在不同任務類別中的表現

我們再來看看聊天機器人在不同任務類別中的表現,即它們在空間素養、GIS概念、制圖、函數解釋、代碼解釋、代碼生成和代碼翻譯等七個類別中的正確性。作者使用了卡方檢驗等統計方法,分析了任務類別對正確性的影響,結果如下:

圖片圖片

在空間素養任務中,ChatGPT-4和Copilot是所有聊天機器人中表現最好的,它們在這個類別中的正確率都達到了94.1%,而Claude-2則是表現最差的,它的正確率只有76.5%。Bard則介于兩者之間,它的正確率為82.4%。這些結果表明,ChatGPT-4和Copilot在空間素養方面具有較強的能力,而Claude-2則需要提高。

在GIS概念任務中,ChatGPT-4和Claude-2是所有聊天機器人中表現最好的,它們在這個類別中的正確率都達到了100%,而Bard和Copilot則是表現最差的,它們的正確率都為75%。這些結果表明,ChatGPT-4和Claude-2在GIS概念方面具有較高的準確性,而Bard和Copilot則需要加強它們對GIS概念的理解和掌握。GIS概念是指與地理信息系統相關的基本概念、原理、方法、技術等,如地圖投影、空間分析、空間數據庫、空間數據模型、空間數據結構等。這些概念對于理解和使用地理信息系統是非常重要的,它們也是空間任務的基礎和前提。如果聊天機器人不能正確地識別和解釋GIS概念,那么它們就很難完成更復雜和更高級的空間任務,如制圖、空間推理、空間操作等。因此,提高聊天機器人在GIS概念方面的正確性,是提升聊天機器人在空間任務方面的能力和性能的關鍵。

在制圖任務中,ChatGPT-4是所有聊天機器人中表現最好的,它在這個類別中的正確率達到了66.7%,而Bard則是表現最差的,它的正確率為0%。Claude-2和Copilot則介于兩者之間,它們的正確率分別為41.7%和16.7%。這些結果表明,ChatGPT-4在制圖方面具有較強的能力,而Bard則完全無法完成這類任務。

在函數解釋任務中,ChatGPT-4和Claude-2是所有聊天機器人中表現最好的,它們在這個類別中的正確率都達到了100%,而Bard和Copilot則是表現最差的,它們的正確率都為85.7%。這些結果表明,ChatGPT-4和Claude-2在函數解釋方面具有較高的準確性,而Bard和Copilot則需要提高。

在代碼解釋任務中,ChatGPT-4和Claude-2是所有聊天機器人中表現最好的,它們在這個類別中的正確率都達到了100%,而Bard和Copilot則是表現最差的,它們的正確率分別為40%和80%。這些結果表明,ChatGPT-4和Claude-2在代碼解釋方面具有較強的能力,而Bard和Copilot則需要改進。

在代碼生成任務中,ChatGPT-4是所有聊天機器人中表現最好的,它在這個類別中的正確率達到了75%,而Claude-2則是表現最差的,它的正確率只有25%。Bard和Copilot則介于兩者之間,它們的正確率分別為33.3%和50%。這些結果表明,ChatGPT-4在代碼生成方面具有較強的能力,而Claude-2則需要大幅提高。

在代碼翻譯任務中,ChatGPT-4也是所有聊天機器人中表現最好的,它在這個類別中的正確率達到了80%,而Bard則是表現最差的,它的正確率只有40%。Claude-2和Copilot則介于兩者之間,它們的正確率都是60%。這些結果表明,ChatGPT-4在代碼翻譯方面具有較強的能力,而Bard則需要大幅改進。

聊天機器人在不同任務類別中的表現存在著較大的差異,這可能與它們的模型特點、訓練目標、知識來源等因素有關。ChatGPT-4在所有任務類別中都表現最好,這可能與它的模型規模、多模態能力、地理空間知識圖譜等因素有關。Bard在大多數任務類別中都表現最差,這可能與它的模型規模、文本限制、搜索引擎等因素有關。Claude-2和Copilot則在不同任務類別中表現不一,這可能與它們的模型結構、搜索引擎、圖像生成等因素有關。

 03  聊天機器人在空間任務中遇到的困難和原因

下面我們來看看聊天機器人在空間任務中遇到的困難和原因,即它們在回答空間任務時產生的錯誤或缺陷的類型和原因。作者使用了定性的方法,對聊天機器人的回答進行了錯誤分析。

在空間事實維度,聊天機器人的錯誤主要是由于它們的知識庫不完整或過時,導致它們無法提供正確的地理信息,如地名、坐標、距離、方向等。例如,Claude-2和Copilot無法正確識別德國的A60高速公路與萊茵河的交點所在的城市,這可能是因為它們的知識庫沒有包含這個信息,或者它們的搜索引擎沒有找到相關的結果。另一個例子是,ChatGPT-4和Claude-2無法正確列出阿曼的所有世界遺產,這可能是因為它們的知識庫沒有更新最新的數據,或者它們的地理空間知識圖譜沒有包含這個信息。

圖片圖片

圖2:基于GPT-4生成的Python代碼的美國地圖。

在空間推理維度,聊天機器人的錯誤主要是由于它們的邏輯能力不足,導致它們無法正確地進行空間操作、排序、比較、計算等。例如,Claude-2無法正確地按照河流的流向對城市進行排序,這可能是因為它沒有理解河流的空間屬性,或者它沒有使用正確的空間算法。另一個例子是,Bard無法正確地計算兩個城市之間的距離,這可能是因為它沒有使用正確的距離公式,或者它沒有考慮地球的曲率。

在空間操作維度,聊天機器人的錯誤主要是由于它們的技術能力不足,導致它們無法正確地使用第三方API或編程語言來生成地圖、圖形、代碼等。例如,Bard無法生成Mapbox鏈接,這可能是因為它沒有接入Mapbox的服務,或者它沒有掌握Mapbox的用法。另一個例子是,Claude-2和Copilot無法生成正確的Python代碼來創建一個顯示美國五大城市的人口和位置的地圖,這可能是因為它們沒有加載必要的庫,或者它們沒有使用正確的屬性和參數。

在空間知識維度,聊天機器人的錯誤主要是由于它們的理解能力不足,導致它們無法正確地識別和解釋空間相關的概念、函數、代碼等。例如,Bard錯誤地將大比例尺地圖和小比例尺地圖的概念混淆,這可能是因為它沒有掌握地圖的基本原理,或者它沒有注意到比例尺的定義。另一個例子是,Copilot錯誤地將凸包的概念和凹包的概念混淆,這可能是因為它沒有理解凸包的定義,或者它沒有注意到凸包的特征。

聊天機器人在空間任務中遇到的困難和原因是多方面的,這可能與它們的知識、邏輯、技術、理解等方面的能力有關。其中,ChatGPT-4在空間任務中產生的錯誤最少,這可能與它的知識庫的完整性、邏輯能力的強度、技術能力的廣度、理解能力的深度等因素有關。Bard在空間任務中產生的錯誤最多,這可能與它的知識庫的不完整性、邏輯能力的不足、技術能力的狹窄、理解能力的淺薄等因素有關。Claude-2和Copilot在空間任務中產生的錯誤不一,這可能與它們的知識庫的更新性、邏輯能力的一致性、技術能力的靈活性、理解能力的準確性等因素有關。

 04  聊天機器人的優勢和不足

接下來我們來看看聊天機器人在空間任務方面的優勢和不足,即它們在回答空間任務時表現出的優點和缺點。作者使用了定性的方法,對聊天機器人的回答進行了評價。

聊天機器人的優點主要是它們能夠快速、方便、智能地提供空間任務的解決方案,它們能夠利用大量的數據和知識,它們能夠生成多樣的內容,它們能夠與用戶進行自然的對話。例如,ChatGPT-4能夠在幾秒鐘內生成一個顯示美國五大城市的人口和位置的地圖,這可能比人類使用GIS軟件要快得多。另一個例子是,Copilot能夠根據用戶的要求生成一首關于地理的歌曲,這可能比人類使用音樂軟件要容易得多。

聊天機器人的缺點主要是它們的正確性和可靠性不高,它們的理解和創造能力有限,它們的個性和情感缺乏,它們的安全和道德存在風險。例如,Bard在空間任務中的正確率只有59.3%,這可能導致用戶對它的信任度降低。另一個例子是,Claude-2在生成Mapbox鏈接時經度參數錯誤,這可能導致用戶在使用地圖時出現錯誤的位置。

聊天機器人在空間任務方面的優勢和不足是相互制衡的,這可能與它們的設計目標、技術水平、用戶需求等因素有關。ChatGPT-4在空間任務方面的優勢最大,它能夠提供高效、多樣、智能的空間任務的解決方案,而它的不足則主要是它的知識和信息可能不完全準確或及時。Bard在空間任務方面的不足最大,它的空間任務的解決方案往往不正確、冗長、無效,而它的優勢則主要是它能夠利用Google搜索引擎進行信息檢索。Claude-2和Copilot在空間任務方面的優勢和不足不一,它們的空間任務的解決方案有時正確、簡潔、有效,有時錯誤、冗長、無效,而它們的優勢則主要是它們能夠利用Bing搜索引擎和DALL-E模型進行信息檢索和圖像生成。

圖片圖片

圖3:(a)使用GPT-4更正地圖位置,(b)使用Claude-2更正位置地圖位置,以便為維也納的Mapbox地圖生成鏈接;以及(c)通過GPT-4生成的Mapbox地圖上連接維也納和慕尼黑的線路。

 05  聊天機器人的發展趨勢和前景

最后我們來看看聊天機器人在空間任務方面的發展趨勢和前景,即它們在未來可能會有哪些改進和創新,以及它們對地理科學領域的人工智能應用有哪些影響和價值。作者使用了預測和展望的方法,對聊天機器人的未來進行了分析。

聊天機器人的改進主要是提高它們的正確性和可靠性,增強它們的理解和創造能力,豐富它們的個性和情感,保障它們的安全和道德。例如,Bard在2023年12月集成了Gemini-Pro的高級功能后,它的空間任務的表現有所改善,這可能是因為Gemini-Pro能夠處理多模態的數據,如圖像、視頻、聲音等,從而提高了它的理解和創造能力。另一個例子是,ChatGPT-4能夠利用地理空間知識圖譜進行推理,這可能是因為地理空間知識圖譜能夠提供豐富和準確的地理信息,從而提高了它的正確性和可靠性。

聊天機器人的創新主要是開發新的空間任務的解決方案,探索新的空間任務的應用場景,創造新的空間任務的用戶體驗,實現新的空間任務的社會價值。例如,ChatGPT-4能夠生成一個顯示美國五大城市的人口和位置的地圖,這可能是一種新的空間任務的解決方案,它能夠簡化和優化制圖的過程,提高制圖的效率和質量。另一個例子是,Copilot能夠生成一首關于地理的歌曲,這可能是一種新的空間任務的應用場景,它能夠增加和拓展地理的教育和娛樂的方式,提高地理的趣味性和吸引力。

聊天機器人的影響主要是促進地理科學領域的人工智能的發展和應用,提升地理科學領域的人工智能的水平和貢獻,擴大地理科學領域的人工智能的影響和價值。例如,ChatGPT-4能夠利用地理空間知識圖譜進行推理,這可能是一種促進地理科學領域的人工智能的發展和應用的方式,它能夠整合和利用大量的地理數據和知識,為地理問題的解決提供智能的支持和輔助。另一個例子是,Copilot能夠生成一首關于地理的歌曲,這可能是一種提升地理科學領域的人工智能的水平和貢獻的方式,它能夠展示和證明地理科學領域的人工智能的創造力和美感,為地理文化的傳播提供藝術的表達和欣賞。

從這些結果可以看出,聊天機器人在空間任務方面的發展趨勢和前景是充滿了機遇和挑戰的,這可能與它們的技術進步、用戶需求、社會效益等因素有關。其中,ChatGPT-4在空間任務方面的發展潛力最大,它能夠提供更多的空間任務的解決方案,探索更多的空間任務的應用場景,創造更多的空間任務的用戶體驗,實現更多的空間任務的社會價值,而它的挑戰則主要是保障它的安全和道德。Bard在空間任務方面的發展空間最小,它需要提高它的正確性和可靠性,增強它的理解和創造能力,豐富它的個性和情感,而它的機遇則主要是利用它的搜索引擎和多模態能力。Claude-2和Copilot在空間任務方面的發展方向不一,它們需要根據它們的模型特點、技術優勢、用戶反饋等因素,進行有針對性的改進和創新,而它們的機遇和挑戰則與它們的搜索引擎和圖像生成等功能有關。

這篇論文已經在2024年1月發表在《地理信息科學國際期刊》(International Journal of Geographical Information Science)上,感興趣的讀者可以查閱原文,或者下載他們的數據集,進行更深入的分析和比較。

參考資料:https://arxiv.org/abs/2401.02404

噬元獸(FlerkenS)是一個去中心化的個人AI數字價值容器,同時也是數字經濟的新型資產捕捉器和轉化器,用數據飛輪為用戶提供無邊界的數字化、智能化和資產化服務。

噬元獸(FlerkenS)構建AI市場、AI發布器和一個在通用人工智能(AGI)上建設可擴展的系統,AI-DSL讓不同類型和領域的AI應用和服務可以相互協作和交互,通過RAG向量數據庫(Personal Vector Database)+ Langchain技術方案(Langchain Technology Solution)+大模型的技術實現路徑,讓用戶獲得個性化的AI服務,在分布式的網絡環境里與AI技術下的服務商實現點到點的連接,建設一個智能體和經濟體結合的數智化整體。

波動世界(PoppleWorld)是噬元獸平臺的一款AI應用,采用AI技術幫助用戶進行情緒管理的工具和傳遞情緒價值的社交產品,采用Web3分布式技術建設一套采集用戶情緒數據并通過TOKEN激勵聚合形成情感垂直領域的RAG向量數據庫,并以此訓練一個專門解決用戶情緒管理的大模型,結合Agents技術形成情感類AI智慧體。在產品里植入協助用戶之間深度交互提供情緒價值的社交元素,根據用戶的更深層化的需求處理準確洞察匹配需求,幫助用戶做有信心的購買決定并提供基于意識源頭的商品和服務,建立一個指導我們的情緒和反應的價值體系。這是一款針對普通人的基于人類認知和行為模式的情感管理Dapp應用程序。

責任編輯:武曉燕 來源: 大噬元獸
相關推薦

2023-06-08 10:02:50

ChatGPTBardGoogle

2023-05-30 14:39:34

ChatGPT-4NLP

2023-03-19 16:08:44

2023-03-23 14:31:35

2023-03-15 07:46:28

2015-07-06 14:54:19

Spark計算正確性Hadoop

2023-06-19 19:26:54

模型開源

2011-04-19 09:41:22

數據庫

2023-09-06 12:11:21

ChatGPT語言模型

2023-06-12 08:00:00

聊天機器人ChatGPT人工智能

2018-12-18 17:45:59

數據庫數據庫安全

2023-11-07 10:20:22

人工智能AI

2023-04-01 10:16:57

ChatGPT-4程序員失業

2024-05-08 07:28:06

LLMLinguaLLM大型語言模型

2023-12-08 13:11:58

2010-02-25 16:22:18

Linux gcc編譯

2023-05-09 07:09:02

2023-03-23 09:25:05

Bard機器人

2023-04-26 14:20:17

谷歌AI

2023-06-30 12:58:55

ChatGPT-4人工智能工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩日b视频 | 羞羞视频网站在线观看 | 亚洲伊人精品酒店 | 欧美中文一区 | 欧美激情视频一区二区三区在线播放 | 亚洲一区在线日韩在线深爱 | 日本精品久久久一区二区三区 | 日韩欧美在线一区 | 干干干操操操 | 特黄一级 | 亚洲欧美日韩电影 | 国产欧美日韩一区二区三区 | 国产精品毛片无码 | 中文字幕一区二区三区精彩视频 | 日韩视频国产 | 欧美精品一区二区在线观看 | 亚洲国产中文字幕 | 亚洲国产情侣自拍 | 欧洲一区二区视频 | 视频在线一区二区 | 欧美成年网站 | 免费一区二区三区 | 欧美激情久久久 | 狠狠骚| 国产日韩精品在线 | 国产精品久久久亚洲 | 欧美日韩一区精品 | 国产99久久 | 亚洲国产日韩一区 | 欧美成人精品一区二区男人看 | 精品在线免费观看视频 | 精品av久久久久电影 | 中文字幕av网站 | 一区二区三区视频 | 亚洲一区 中文字幕 | 亚洲免费在线观看 | 国产成人精品久久二区二区 | 夜夜久久 | 国产午夜精品一区二区三区在线观看 | 91婷婷韩国欧美一区二区 | 人碰人操 |