成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型 原創(chuàng) 精華

發(fā)布于 2024-11-8 14:55
瀏覽
0收藏

Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)


材料科學(xué)側(cè)重于研究和開發(fā)具有特定性能和應(yīng)用的材料。該領(lǐng)域的研究人員旨在了解材料的結(jié)構(gòu)、性能和性能,以創(chuàng)新和改進(jìn)現(xiàn)有技術(shù),并為各種應(yīng)用創(chuàng)造新材料。該學(xué)科結(jié)合了化學(xué)、物理和工程原理,以應(yīng)對(duì)挑戰(zhàn)并改進(jìn)航空航天、汽車、電子和醫(yī)療保健中使用的材料。

材料科學(xué)面臨的一個(gè)重大挑戰(zhàn)是整合來自科學(xué)文獻(xiàn)的大量視覺和文本數(shù)據(jù),傳統(tǒng)方法通常無法有效地組合這些數(shù)據(jù)類型,從而限制了生成全面見解和解決方案的能力。難點(diǎn)在于從圖像中提取相關(guān)信息并將其與文本數(shù)據(jù)相關(guān)聯(lián),這對(duì)于推進(jìn)該領(lǐng)域的研究和應(yīng)用至關(guān)重要。

1.Cephalo

麻省理工學(xué)院(MIT)的研究人員推出了Cephalo,這是一系列專為材料科學(xué)應(yīng)用設(shè)計(jì)的多模態(tài)視覺語言模型(V-LLMs)。Cephalo旨在彌合視覺感知和語言理解之間的差距,以分析和設(shè)計(jì)仿生材料。

Cephalo 利用復(fù)雜的算法從科學(xué)文獻(xiàn)中檢測(cè)和分離圖像及其相應(yīng)的文本描述。它使用視覺編碼器和自回歸轉(zhuǎn)換器集成這些數(shù)據(jù),使模型能夠解釋復(fù)雜的視覺場(chǎng)景,生成準(zhǔn)確的語言描述,并有效地回答查詢。

Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

該模型使用來自數(shù)千篇科學(xué)論文和以科學(xué)為重點(diǎn)的維基百科頁面的集成圖像和文本數(shù)據(jù)進(jìn)行訓(xùn)練。它展示了其處理復(fù)雜數(shù)據(jù)和提供有見地的分析的能力。


Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

如上圖所示,Cephalo推出的模型在4B和12B之間,基座模型有Phi-3和Idefics-2,分別采用GPT-40和Idefics-2針對(duì)原始數(shù)據(jù)進(jìn)行提煉。當(dāng)然本項(xiàng)目還利用層合并技術(shù)形成更大規(guī)模的大模型以及嘗試采用MoE的方式進(jìn)行實(shí)驗(yàn)。緊接著來看看本次項(xiàng)目的成果,在各個(gè)領(lǐng)域的影響力還是巨大的。


Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

2.特色1:語料構(gòu)成

Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)


圖像文本數(shù)據(jù)集的Token記長度記數(shù)直方圖,a代表來至示來自維基百科,b代表來之論文語料庫,原始說明。c-e顯示了使用不同視覺文本模型處理的結(jié)果。c顯示了Idefics-2處理維基百科后的圖像描述的Token長度。面板d和e顯示了使用Idefics-2和GPT-4o處理的論文語料庫數(shù)據(jù)集的結(jié)果。

GPT-4o數(shù)據(jù)集通常會(huì)產(chǎn)生更長的描述,對(duì)內(nèi)容的詳細(xì)分析讓它提供了增強(qiáng)的推理能力和對(duì)圖像內(nèi)容的細(xì)致解釋的能力。所有Token均使用 Phi-3-Vision標(biāo)記器(tokenizer)完成。


Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

上圖為從wiki和論文中獲取圖像分辨率的直方統(tǒng)計(jì)圖。相對(duì)而言,論文的圖片質(zhì)量普遍高一點(diǎn)。

為了開發(fā)一種強(qiáng)大的數(shù)據(jù)集生成方法,研究人員使用PyMuPDF中的 fitz 庫從0到1實(shí)現(xiàn)全新的算法。該過程首先識(shí)別PDF中每頁的所有圖像。隨后找到以“Fig”或類似標(biāo)識(shí)符開頭的文本塊。然后該算法將這些文本塊與位于其下方的最近圖像進(jìn)行匹配。

匹配過程通過幾個(gè)清理步驟進(jìn)行改進(jìn),包括處理不同的圖像顏色圖和格式,以及刪除特定符號(hào),例如期刊添加到文檔中的符號(hào)。一些 PDF 產(chǎn)生了分割的圖形,需要額外的處理才能確保數(shù)據(jù)集的完整性。

通過與通用V-LLM(視覺大模型)共享圖像和原始標(biāo)題,并讓模型開發(fā)圖像的全面描述,可以開發(fā)用于訓(xùn)練的圖像文本對(duì)。研究人員同時(shí)使用開源 V-LLM、Idefics2和GPT-4o來完成針對(duì)圖的信息提煉。作為替代方案,我們還探索了使用純文本的 LLM(例如,Phi-3-Bioinspired,它提供了另一種選擇。具有視覺功能的 LLM 來處理和提煉數(shù)據(jù)集通常更好,并提供更詳細(xì)和合理的描述。


Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)


上圖中的數(shù)據(jù)集的字段既包含原始的Caption,也有經(jīng)過vLLM綜合內(nèi)容生成的QA字段,更加豐滿了(例如下圖的a重新生成b的描述。)


Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)


3.特色2:層合并

混合模型Cephalo-Idefics-2-vision-10b-alpha通過有效地將特定領(lǐng)域的專業(yè)知識(shí)與一般的對(duì)話能力相結(jié)合,表現(xiàn)出卓越的性能。這是通過將lamm-mit/Cephalo-Idefics-2-vision-8b-beta模型的解碼器的前32層與聊天/指令調(diào)整的HuggingFaceM4/idefics2-8b-chatty模型的最后N層合并。在針對(duì)合并模型的最后N層進(jìn)行微調(diào)。若N=8,則產(chǎn)生10b的模型。


Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)


a顯示了使用低秩自適應(yīng)對(duì)第一個(gè)模型進(jìn)行微調(diào)。

b講述了合并的過程,這個(gè)過程使用兩個(gè)模型,模型A和模型B,來構(gòu)建更大的模型。模型A是一個(gè)領(lǐng)域特定的微調(diào)模型,模型B是一個(gè)通用的聊天/指令調(diào)整模型。研究人員選擇一組層(來自模型 A 的所有層,模型 B 的深層)。這遵循使用領(lǐng)域特定模型的早期層和通用模型的后期層的策略。然后將選定的層合并為一個(gè)新的組合模型,該模型經(jīng)過微調(diào)。

c新模型的微調(diào)是通過凍結(jié)源模型A的所有層并對(duì)源自模型B的層進(jìn)行全面微調(diào)來完成的。生成的模型可以實(shí)現(xiàn)圖像字幕、視覺問答和多模態(tài)內(nèi)容生成等任務(wù)。


Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

給它一張雞蛋的圖,讓它描述,同時(shí)問它要是摔了會(huì)如何。從物理的角度還是回答得有模有樣的!

當(dāng)然本次的研究還順手訓(xùn)練了基于原來模型的MoE,3*4B的LLM。


Cephalo:專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)


Cephalo可以生成精確的圖像到文本和文本到圖像的翻譯,提供高質(zhì)量、上下文相關(guān)的訓(xùn)練數(shù)據(jù)。此功能顯著增強(qiáng)了人類 AI和多智能體AI框架內(nèi)的理解和交互。研究人員已經(jīng)在各種用例中測(cè)試了Cephalo,包括分析斷裂力學(xué)、蛋白質(zhì)結(jié)構(gòu)和仿生設(shè)計(jì),展示了其多功能性和有效性。

在性能和結(jié)果方面,Cephalo的模型范圍從 4B到 12B不等,可適應(yīng)不同的計(jì)算需求和應(yīng)用。這些模型在各種用例中進(jìn)行了測(cè)試,例如生物材料、斷裂和工程分析以及仿生設(shè)計(jì)。例如,Cephalo展示了其解釋復(fù)雜視覺場(chǎng)景和生成精確語言描述的能力,增強(qiáng)了對(duì)失效和斷裂等物質(zhì)現(xiàn)象的理解。這種視覺和語言的整合可以進(jìn)行更準(zhǔn)確和詳細(xì)的分析,支持材料科學(xué)創(chuàng)新解決方案的開發(fā)。

此外,這些模型在特定應(yīng)用中顯示出顯著改進(jìn)。例如,Cephalo可以在分析生物材料時(shí)生成微觀結(jié)構(gòu)的詳細(xì)描述,這對(duì)于理解材料特性和性能至關(guān)重要。在斷裂分析中,該模型準(zhǔn)確描述裂紋擴(kuò)展并提出提高材料韌性的方法的能力尤為重要。這些結(jié)果凸顯了Cephalo在推進(jìn)材料研究和為現(xiàn)實(shí)世界挑戰(zhàn)提供實(shí)用解決方案方面的潛力。

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2024-11-8 14:56:28修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产高清在线精品 | 一区精品视频 | 亚洲精品久久久久久下一站 | 亚洲女人天堂成人av在线 | 欧洲成人 | 亚洲国产一区二区三区 | 午夜精品久久久久久不卡欧美一级 | 精品久久久久久久人人人人传媒 | 国产精品久久久久久久久免费相片 | 久久久久91 | 91色视频在线 | 福利网站在线观看 | 狠狠操av | 日韩精品一区二区三区第95 | 国产一级影片 | 欧美日韩综合一区 | 992人人草| 天天插天天狠天天透 | 国产精品视频999 | 成av在线| 欧美一级电影免费 | 久久无毛| 午夜影视免费片在线观看 | 99re在线视频 | 久久高清精品 | 日韩在线免费观看视频 | 亚洲综合中文字幕在线观看 | 免费h在线| 中文字幕免费在线 | 国产精品极品美女在线观看免费 | 成人福利在线观看 | 免费日本视频 | 丝袜 亚洲 欧美 日韩 综合 | 精品国产一区二区三区性色av | 国产欧美二区 | 欧美成人精品激情在线观看 | 天天干天天草 | 五月天婷婷狠狠 | 国产在线观看一区二区 | 久久99精品久久久久久琪琪 | 久久久久久一区 |