成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

K2喬戈里,上交大團隊推出一個70億參數(shù)的地球科學(xué)大語言模型

人工智能 新聞
珠穆朗瑪峰固然高大雄偉,但是喬戈里峰的攀爬難度卻遠(yuǎn)超珠穆朗瑪峰,在登山界享有盛名,即使是最簡單的登頂路線也需要穿越地形復(fù)雜的冰川,攀緣幾乎垂直的峭壁,經(jīng)過許多很容易倒塌的冰柱。來自上海交通大學(xué)的科研團隊,將第一個地球科學(xué)的大模型就被命名為喬戈里峰,就源于此。

地球科學(xué)是一門古老的學(xué)科,不僅研究巖石、礦物和土地的性質(zhì),還探討地球的氣候、海洋、大氣、生態(tài)系統(tǒng)等多個方面現(xiàn)象和原理。地學(xué)與我們的日常生活息息相關(guān),幫助我們預(yù)測天氣,了解地球的演化歷史,維護海洋生態(tài)系統(tǒng)平衡和海洋資源均衡等。同時火山活動、地震、恐龍化石、氣象現(xiàn)象等引人入勝的內(nèi)容,也被一個個地學(xué)工作者闡述出來,帶給大家一個又一個令人驚奇和引人入勝的故事。

圖片圖片

圖:地學(xué)領(lǐng)域詞云圖;研究各個地學(xué)年代的地學(xué)論文數(shù)量的分布。

總的來說,地球科學(xué)是一門理論性、應(yīng)用性都很強的自然科學(xué)。從理論性上來說,它承擔(dān)著揭示自然界奧秘與規(guī)律的使命。從應(yīng)用性上來看,它為生活在地球上的人類如何適應(yīng)、利用、保護自然提供了科學(xué)的方法論。但是一味的通過傳統(tǒng)的理論和實踐的方法并不能高效的發(fā)現(xiàn)新的地學(xué)理論,整合傳統(tǒng)的地球科學(xué)和利用計算機科學(xué)的處理大數(shù)據(jù)成了地球科學(xué)的新科研范式。

很長一段時間以來,計算機科學(xué)已經(jīng)成為地球科學(xué)不可或缺的一部分。地球科學(xué)涉及大量的數(shù)據(jù),包括文獻(xiàn)數(shù)據(jù)、地質(zhì)數(shù)據(jù)、氣象數(shù)據(jù)、遙感數(shù)據(jù)等。計算機科學(xué)提供了處理、存儲和分析這些海量圖片、文本和數(shù)字等模態(tài)的數(shù)據(jù)的工具和技術(shù)。這兩個學(xué)科的交叉融合已經(jīng)成為大勢所趨。

其中,文本數(shù)據(jù)挖掘是重要的但是最容易被忽視的一個重要組成部分。從大量的文本數(shù)據(jù)中提取有關(guān)地球科學(xué)的信息、模式和趨勢,可以加深對地球科學(xué)的理解,并為科學(xué)研究、決策制定和問題解決提供支持。與此同時,近年大火的語言模型又是文本數(shù)據(jù)挖掘重要的工具。因此,在這樣的一個屬于大語言模型的時代,推出一個地球科學(xué)這個垂直領(lǐng)域的基座語言模型勢在必行。

最近,來自上海交通大學(xué)的團隊推出一個 70 億參數(shù)的地球科學(xué)大語言模型名叫 K2。K2 是基于初代 LLaMA-7B 模型,并使用了 100 萬余篇地球科學(xué)文獻(xiàn)以及和地球科學(xué)相關(guān)的維基百科的文章進行更進一步的預(yù)訓(xùn)練。同時設(shè)計了第一個地球科學(xué)領(lǐng)域的微調(diào)數(shù)據(jù)集 GeoSignal,包含文章內(nèi)容、類別、參考文獻(xiàn)、提到的實體等,適用于解決回答地球科學(xué)方面的專業(yè)問題、完成命名實體提取、地學(xué)概念上下位關(guān)系判斷等任務(wù)。

圖:地球科學(xué)領(lǐng)域大語言模型 K2 的構(gòu)建流程圖。

區(qū)別于大多數(shù)垂直領(lǐng)域的模型訓(xùn)練的思路,該團隊通過獨特的數(shù)據(jù)重構(gòu)技術(shù)生成指令微調(diào)的數(shù)據(jù),而不僅僅是利用 self-instruct 等方法,利用 ChatGPT 生成的數(shù)據(jù)來進行指令數(shù)據(jù)的采集。

同時為了評估模型在地學(xué)知識的理解和應(yīng)用方面的能力,他們還建立了第一個地球科學(xué)語言模型的基準(zhǔn) GeoBenchmark,它主要由中國的地理、地質(zhì)學(xué)的考研題目和美國的地理、地質(zhì)與環(huán)境科學(xué)的 AP 考試題目組成。有意思的是,ChatGPT 和 GPT4 在地學(xué)相關(guān)的 AP 考試上的分?jǐn)?shù)并沒有隨著 GPT4 的技術(shù)報告一同給出,留給大家十足的想象空間。

在大模型紛爭的時代,大多數(shù)垂直領(lǐng)域的大模型訓(xùn)練都有統(tǒng)一的范式,那就是先進行專業(yè)領(lǐng)域語料的預(yù)訓(xùn)練,再進行指令微調(diào)。但是大多數(shù)的模型在預(yù)訓(xùn)練階段使用的數(shù)據(jù)并不透明,指令微調(diào)的數(shù)據(jù)更多的是蒸餾 ChatGPT 來抑或進行高價的人工標(biāo)注。但是 K2 針對地學(xué)這一個垂直領(lǐng)域給出了一套技術(shù)路線,從計算機角度通過數(shù)據(jù)的整合和提煉來進行學(xué)科交叉的知識工程和模型構(gòu)建,這是 K2 之于數(shù)據(jù)挖掘和自然語言領(lǐng)域的貢獻(xiàn)之一。

針對預(yù)訓(xùn)練數(shù)據(jù),該團隊基于 Grobid,PyPDF2 和 DeepShovel  (https://deepshovel.deep-time.org/) 等工具開發(fā)了一套數(shù)據(jù)清洗工具包。

DeepShovel:是一款輔助地學(xué)科學(xué)家進行知識抽取的文獻(xiàn)標(biāo)注平臺,也陸續(xù)推廣至所有的學(xué)術(shù)領(lǐng)域。目前 DeepShovel 以及輔助超過一百家地球科學(xué)的科研單位。

其中,每一篇地學(xué)開放獲取(Open Access)的論文都會被轉(zhuǎn)化成對于計算機來說可讀性極高的 Markdown 格式的文本,有著多級標(biāo)題的區(qū)分、公式和引用的特殊詞元(Special Token)以及圖片和表格的注釋文本也被特殊詞元保存下來。經(jīng)過一系列的操作,累計獲取了 5.5B 詞元(Tokens)的文本語料。目前他們正在構(gòu)建更大的學(xué)術(shù)資源的語料,旨在進行更大規(guī)模的學(xué)術(shù)大模型的訓(xùn)練。

針對指令微調(diào)數(shù)據(jù),該團隊通過多個自主研發(fā)平臺上的數(shù)據(jù)融合,通過數(shù)據(jù)重構(gòu),將具備一定結(jié)構(gòu)化的網(wǎng)頁進行了解構(gòu),并重組成一套 knowledge-intensive 的數(shù)據(jù)。在這個過程中,上海交通大學(xué)團隊集中團隊內(nèi)部所有的平臺課題組的力量,進行數(shù)據(jù)的充分重組,從而構(gòu)建了一套獨一無二的具有特定地學(xué)任務(wù)的知識性指令微調(diào)數(shù)據(jù)集。

據(jù)論文描述,上海交通大學(xué)團隊在過去的 3 年,相應(yīng) DDE 大科學(xué)計劃(https://deep-time.org/)的號召,完成研發(fā)的地學(xué)數(shù)據(jù)和功能平臺共 4 個。

  • Deep literature

    https://ddescholar.acemap.info/ 

    致力于打造地學(xué)領(lǐng)域的 DBLP,將所有的地學(xué)學(xué)術(shù)文獻(xiàn)進行整合并依托這個平臺進行一系列的數(shù)據(jù)挖掘和學(xué)者畫像的分析。

  • GAKG

    https://gakg.acemap.info/ 

    致力于打造地學(xué)領(lǐng)域的多模態(tài)學(xué)術(shù)知識圖譜,對所有的地學(xué)學(xué)術(shù)文獻(xiàn)進行數(shù)據(jù)的挖掘,抽取文獻(xiàn)之間的關(guān)聯(lián)關(guān)系、地學(xué)知識點之間的上下位等語義關(guān)系以及地學(xué)文獻(xiàn)內(nèi)的知識挖掘。對外提供了語義查詢和文本搜索系統(tǒng),也是 CIKM 歷史上第一篇地球科學(xué)相關(guān)的科研文章。GAKG 對外也提供了數(shù)據(jù)下載、語義查詢和文本搜索的平臺。同時,GAKG 的技術(shù)工作也發(fā)表在 CIKM 上,也是一篇計算機科學(xué)領(lǐng)域與地球科學(xué)交叉研究的科研文章。

  • GSO

    https://gso.acemap.info/ 

    是利用機器生成人工修正的地學(xué)知識樹系統(tǒng),用上下位關(guān)系維護了地學(xué)知識點之間的關(guān)聯(lián),這給大模型提供了很好的地學(xué)知識鏈接預(yù)測的監(jiān)督信號。

  • DataExpo

    https://dataexpo.deep-time.org/

    通過關(guān)鍵詞檢索以及文本分類歸納了所有的地學(xué)數(shù)據(jù)集。

這些平臺承載著地學(xué)的知識元數(shù)據(jù),如果通過人工整合平臺底層的數(shù)據(jù)邏輯,將可以很快的獲得地學(xué)知識之間關(guān)聯(lián)關(guān)系,以及一定的任務(wù)驅(qū)動的數(shù)據(jù)集。

基于 DDE Scholar 可以獲得地學(xué)相關(guān)的科研文獻(xiàn),并且通過其中 OA 的文獻(xiàn)的下載鏈接,可以下載下來構(gòu)建預(yù)訓(xùn)練語料,通過 GAKG,可以構(gòu)建實體抽取的數(shù)據(jù)集,語義上下位詞的知識判斷的數(shù)據(jù)集。通過 DeepShovel 一直以來的數(shù)據(jù)積累,可以構(gòu)建特定任務(wù)的地學(xué)問答系統(tǒng),以及文獻(xiàn)中表格抽取的數(shù)據(jù)集。通過 DataExpo,可以得到數(shù)據(jù)集相關(guān)的知識文本,也可以一定程度上類似科研文獻(xiàn)一般,提供地學(xué)知識的監(jiān)督信號。

當(dāng)然,一定程度上的蒸餾 ChatGPT 確實能輔助模型向 ChatGPT 靠攏,因此針對不同的地學(xué)領(lǐng)域,K2 還集成了一套基于 Self-instruct 的指令微調(diào)數(shù)據(jù)集,并且在 ChatGPT 生成之后也通過了專業(yè)地學(xué)同事的審核,進而得到高質(zhì)量的監(jiān)督效果。

最后上海交通大學(xué)團隊通過人工和機器相結(jié)合的方法,對這些指令進行清洗,并最后構(gòu)成了一套 39k 大小的地學(xué)知識性指令微調(diào)數(shù)據(jù)集。在這個數(shù)據(jù)集中,蒸餾 ChatGPT 的占比并不高,因為在交大團隊看來這類數(shù)據(jù)僅僅只是 QA 任務(wù)的一種監(jiān)督,并不能很好的泛化到其他更難的任務(wù)中。

最后,上海交通大學(xué)團隊聘請了專業(yè)的地學(xué)翻譯專家,將近幾年的地學(xué)的考研題進行了翻譯,并結(jié)合美國高中的 AP 考試中的地學(xué)相關(guān)的科目,構(gòu)建了 GeoBenchmark,與同等大小的模型相比,K2 以較少的數(shù)據(jù)成本,最終得到了如下結(jié)果:

除此之外,該團隊還發(fā)現(xiàn),在微調(diào) K2 的過程中,也是比較有技巧的,如果只利用知識性的指令微調(diào)數(shù)據(jù),模型并不能達(dá)到最好的效果,甚至也只比利用 alpaca 這類開源的和地球科學(xué)無關(guān)的指令微調(diào)數(shù)據(jù)達(dá)到的效果好一些。但是令人激動的是,如果先利用 alpaca 這類指令微調(diào)數(shù)據(jù)進行微調(diào),再利用知識性指令微調(diào)數(shù)據(jù)進行更進一步的訓(xùn)練,達(dá)到的效果則更優(yōu)秀。

目前尚且不知道這個特性是不是只在地球科學(xué)領(lǐng)域存在,因為這種現(xiàn)象類似于,先讓一個小朋友學(xué)會說人話,再學(xué)會說行話。面對晦澀難懂的學(xué)科,多一條這樣的思路,不失為一種方法。

這個現(xiàn)象是否廣泛存在呢,答案是很有可能的,在一次由喬治亞大學(xué)的買庚辰教授組織的 GeoAI 的研討會上,來自喬治亞大學(xué)和哈佛大學(xué)的團隊也在訓(xùn)練 radiology 領(lǐng)域的生成式模型的過程中也發(fā)現(xiàn)了這一現(xiàn)象。充分說明,要想成為專家,要先學(xué)會 “做人”。

在整個過程中,K2 的訓(xùn)練和研發(fā)可謂是坎坷曲折,由于領(lǐng)域壁壘較高,因此很難直接獲得專家的標(biāo)注,如果從需求出發(fā),地學(xué)領(lǐng)域的需求也很難直接轉(zhuǎn)化為計算機領(lǐng)域的任務(wù)。最后,這款地學(xué)領(lǐng)域的大模型還是從成功地從計算機角度出發(fā)訓(xùn)練完成了,給后續(xù)的地學(xué)領(lǐng)域的大模型一定的參考意義。

目前看來,在國際社區(qū)中,K2 的應(yīng)用前景非常廣闊。例如,它可以用于自然語言理解、結(jié)合 GAKG 進行信息檢索增強的 QA 任務(wù)和文本生成等任務(wù)。此外,在未來 K2 還可以用于地球科學(xué)領(lǐng)域的知識圖譜構(gòu)建和地球科學(xué)文獻(xiàn)的自動化分析等方面。在地學(xué)類資訊公司的社交圈子里,已經(jīng)廣泛討論了該團隊這一令人激動的工作。例如:

1.https://paulhcleverley.com/2023/08/03/worlds-first-geoscience-large-language-model/

2.https://www.linkedin.com/posts/paulhcleverley_geosciences-largelanguagemodels-artificialintelligence-activity-7093001271632101376-jzAc 


經(jīng)過本文的陳述,計算機賦予地學(xué)新的生命,地學(xué)賦予計算機新的使命。我們相信,會有越來越多的真正愿意奉獻(xiàn)地學(xué)的計算機學(xué)科專家投入時間,以及真正愿意沉下心來從地學(xué)角度給予支持和耐心的地學(xué)專家參與進來,地學(xué)的 AI 時代將很快到來。

  • Paper: https://arxiv.org/abs/2306.05064
  • Code: https://github.com/davendw49/k2

關(guān)于 DDE 國際大科學(xué)計劃

K2 是響應(yīng)深時數(shù)字地球(DDE)國際大科學(xué)計劃號召,由計算機領(lǐng)域的科研工作者深入地學(xué)領(lǐng)域進行數(shù)據(jù)采集分析,打開了一條計算機科學(xué)與地球科學(xué)交叉研究的新思路。DDE 國際大科學(xué)計劃是全國唯一一個國際大科學(xué)計劃,由中國地質(zhì)大學(xué)王成善院士,中國科學(xué)院地理科學(xué)與資源研究所周成虎院士等中國地球科學(xué)的科學(xué)家領(lǐng)導(dǎo)的,致力于建設(shè)一個為應(yīng)對全球科技挑戰(zhàn)、支撐全球或者區(qū)域命運共同體提供社會所需知識的國際平臺來實現(xiàn)聚合全球地學(xué)大數(shù)據(jù),構(gòu)建數(shù)據(jù)驅(qū)動的地球科學(xué)發(fā)現(xiàn)的目的。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-02-25 16:14:36

AIMeta語言模型

2024-02-02 21:42:41

2015-05-05 15:42:02

2012-11-01 12:59:04

浪潮清華計算地球科學(xué)

2023-04-21 10:37:40

語言模型

2023-05-26 00:43:08

2024-06-12 11:48:55

2024-09-03 17:43:54

2023-12-13 11:16:34

微軟Phi-2大型語言模型

2023-06-05 10:01:18

模型測評

2015-09-16 15:06:44

2014-05-21 09:38:40

2022-07-22 14:49:37

語言模型DeepMindAlphaFold2

2023-08-03 19:11:45

2024-07-03 12:12:33

訓(xùn)練模型

2021-01-25 13:45:14

模型人工智能深度學(xué)習(xí)

2025-06-06 14:25:04

模型自然語言AI

2019-10-12 13:36:43

機器學(xué)習(xí)人工智能計算機

2024-07-22 08:17:00

模型性能

2024-03-12 13:22:00

訓(xùn)練數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美在线天堂 | 久久成人一区 | 亚洲国产欧美在线 | 成人国产精品久久 | 激情三区 | 日韩手机视频 | 亚洲精品视频免费观看 | 国产精品成人一区二区三区夜夜夜 | 日一区二区 | 一区二区三区视频在线观看 | 午夜免费福利片 | 免费激情 | 久久免费观看视频 | 一级片在线免费看 | 青草福利| 久久久久九九九女人毛片 | 日日夜夜精品视频 | 成av在线 | 九九爱这里只有精品 | 久久久久久久国产 | 成人福利片 | 日韩欧美一区二区三区免费看 | 久久久精 | 综合天天久久 | 成人在线视频网站 | 中日韩av | 99在线免费观看视频 | 精精国产视频 | 另类a v| 精品在线99| 久久久久久成人网 | 精品乱码一区二区三四区 | 国产美女自拍视频 | 欧美日韩精品久久久免费观看 | 国产一区二区三区久久久久久久久 | 久久久www | 国产综合一区二区 | 黑人巨大精品欧美一区二区一视频 | 男人天堂免费在线 | 精品一二区 | 亚洲精品视频在线观看免费 |