Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型原創(chuàng) 精華

發(fā)布于 2024-11-8 14:55

瀏覽

0收藏

Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

材料科學(xué)側(cè)重于研究和開發(fā)具有特定性能和應(yīng)用的材料。該領(lǐng)域的研究人員旨在了解材料的結(jié)構(gòu)、性能和性能，以創(chuàng)新和改進(jìn)現(xiàn)有技術(shù)，并為各種應(yīng)用創(chuàng)造新材料。該學(xué)科結(jié)合了化學(xué)、物理和工程原理，以應(yīng)對(duì)挑戰(zhàn)并改進(jìn)航空航天、汽車、電子和醫(yī)療保健中使用的材料。

材料科學(xué)面臨的一個(gè)重大挑戰(zhàn)是整合來自科學(xué)文獻(xiàn)的大量視覺和文本數(shù)據(jù)，傳統(tǒng)方法通常無法有效地組合這些數(shù)據(jù)類型，從而限制了生成全面見解和解決方案的能力。難點(diǎn)在于從圖像中提取相關(guān)信息并將其與文本數(shù)據(jù)相關(guān)聯(lián)，這對(duì)于推進(jìn)該領(lǐng)域的研究和應(yīng)用至關(guān)重要。

1.Cephalo

麻省理工學(xué)院（MIT）的研究人員推出了Cephalo，這是一系列專為材料科學(xué)應(yīng)用設(shè)計(jì)的多模態(tài)視覺語言模型（V-LLMs）。Cephalo旨在彌合視覺感知和語言理解之間的差距，以分析和設(shè)計(jì)仿生材料。

Cephalo 利用復(fù)雜的算法從科學(xué)文獻(xiàn)中檢測(cè)和分離圖像及其相應(yīng)的文本描述。它使用視覺編碼器和自回歸轉(zhuǎn)換器集成這些數(shù)據(jù)，使模型能夠解釋復(fù)雜的視覺場(chǎng)景，生成準(zhǔn)確的語言描述，并有效地回答查詢。

Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

該模型使用來自數(shù)千篇科學(xué)論文和以科學(xué)為重點(diǎn)的維基百科頁面的集成圖像和文本數(shù)據(jù)進(jìn)行訓(xùn)練。它展示了其處理復(fù)雜數(shù)據(jù)和提供有見地的分析的能力。

Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

如上圖所示，Cephalo推出的模型在4B和12B之間，基座模型有Phi-3和Idefics-2，分別采用GPT-40和Idefics-2針對(duì)原始數(shù)據(jù)進(jìn)行提煉。當(dāng)然本項(xiàng)目還利用層合并技術(shù)形成更大規(guī)模的大模型以及嘗試采用MoE的方式進(jìn)行實(shí)驗(yàn)。緊接著來看看本次項(xiàng)目的成果，在各個(gè)領(lǐng)域的影響力還是巨大的。

Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

2.特色1：語料構(gòu)成

Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

圖像文本數(shù)據(jù)集的Token記長度記數(shù)直方圖，a代表來至示來自維基百科，b代表來之論文語料庫，原始說明。c-e顯示了使用不同視覺文本模型處理的結(jié)果。c顯示了Idefics-2處理維基百科后的圖像描述的Token長度。面板d和e顯示了使用Idefics-2和GPT-4o處理的論文語料庫數(shù)據(jù)集的結(jié)果。

GPT-4o數(shù)據(jù)集通常會(huì)產(chǎn)生更長的描述，對(duì)內(nèi)容的詳細(xì)分析讓它提供了增強(qiáng)的推理能力和對(duì)圖像內(nèi)容的細(xì)致解釋的能力。所有Token均使用 Phi-3-Vision標(biāo)記器（tokenizer）完成。

Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

上圖為從wiki和論文中獲取圖像分辨率的直方統(tǒng)計(jì)圖。相對(duì)而言，論文的圖片質(zhì)量普遍高一點(diǎn)。

為了開發(fā)一種強(qiáng)大的數(shù)據(jù)集生成方法，研究人員使用PyMuPDF中的 fitz 庫從0到1實(shí)現(xiàn)全新的算法。該過程首先識(shí)別PDF中每頁的所有圖像。隨后找到以“Fig”或類似標(biāo)識(shí)符開頭的文本塊。然后該算法將這些文本塊與位于其下方的最近圖像進(jìn)行匹配。

匹配過程通過幾個(gè)清理步驟進(jìn)行改進(jìn)，包括處理不同的圖像顏色圖和格式，以及刪除特定符號(hào)，例如期刊添加到文檔中的符號(hào)。一些 PDF 產(chǎn)生了分割的圖形，需要額外的處理才能確保數(shù)據(jù)集的完整性。

通過與通用V-LLM（視覺大模型）共享圖像和原始標(biāo)題，并讓模型開發(fā)圖像的全面描述，可以開發(fā)用于訓(xùn)練的圖像文本對(duì)。研究人員同時(shí)使用開源 V-LLM、Idefics2和GPT-4o來完成針對(duì)圖的信息提煉。作為替代方案，我們還探索了使用純文本的 LLM（例如，Phi-3-Bioinspired，它提供了另一種選擇。具有視覺功能的 LLM 來處理和提煉數(shù)據(jù)集通常更好，并提供更詳細(xì)和合理的描述。

Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

上圖中的數(shù)據(jù)集的字段既包含原始的Caption，也有經(jīng)過vLLM綜合內(nèi)容生成的QA字段，更加豐滿了（例如下圖的a重新生成b的描述。）

Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

3.特色2：層合并

混合模型Cephalo-Idefics-2-vision-10b-alpha通過有效地將特定領(lǐng)域的專業(yè)知識(shí)與一般的對(duì)話能力相結(jié)合，表現(xiàn)出卓越的性能。這是通過將lamm-mit/Cephalo-Idefics-2-vision-8b-beta模型的解碼器的前32層與聊天/指令調(diào)整的HuggingFaceM4/idefics2-8b-chatty模型的最后N層合并。在針對(duì)合并模型的最后N層進(jìn)行微調(diào)。若N=8，則產(chǎn)生10b的模型。

Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

a顯示了使用低秩自適應(yīng)對(duì)第一個(gè)模型進(jìn)行微調(diào)。

b講述了合并的過程，這個(gè)過程使用兩個(gè)模型，模型A和模型B，來構(gòu)建更大的模型。模型A是一個(gè)領(lǐng)域特定的微調(diào)模型，模型B是一個(gè)通用的聊天/指令調(diào)整模型。研究人員選擇一組層（來自模型 A 的所有層，模型 B 的深層）。這遵循使用領(lǐng)域特定模型的早期層和通用模型的后期層的策略。然后將選定的層合并為一個(gè)新的組合模型，該模型經(jīng)過微調(diào)。

c新模型的微調(diào)是通過凍結(jié)源模型A的所有層并對(duì)源自模型B的層進(jìn)行全面微調(diào)來完成的。生成的模型可以實(shí)現(xiàn)圖像字幕、視覺問答和多模態(tài)內(nèi)容生成等任務(wù)。

Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

給它一張雞蛋的圖，讓它描述，同時(shí)問它要是摔了會(huì)如何。從物理的角度還是回答得有模有樣的！

當(dāng)然本次的研究還順手訓(xùn)練了基于原來模型的MoE，3*4B的LLM。

Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型-AI.x社區(qū)

Cephalo可以生成精確的圖像到文本和文本到圖像的翻譯，提供高質(zhì)量、上下文相關(guān)的訓(xùn)練數(shù)據(jù)。此功能顯著增強(qiáng)了人類 AI和多智能體AI框架內(nèi)的理解和交互。研究人員已經(jīng)在各種用例中測(cè)試了Cephalo，包括分析斷裂力學(xué)、蛋白質(zhì)結(jié)構(gòu)和仿生設(shè)計(jì)，展示了其多功能性和有效性。

在性能和結(jié)果方面，Cephalo的模型范圍從 4B到 12B不等，可適應(yīng)不同的計(jì)算需求和應(yīng)用。這些模型在各種用例中進(jìn)行了測(cè)試，例如生物材料、斷裂和工程分析以及仿生設(shè)計(jì)。例如，Cephalo展示了其解釋復(fù)雜視覺場(chǎng)景和生成精確語言描述的能力，增強(qiáng)了對(duì)失效和斷裂等物質(zhì)現(xiàn)象的理解。這種視覺和語言的整合可以進(jìn)行更準(zhǔn)確和詳細(xì)的分析，支持材料科學(xué)創(chuàng)新解決方案的開發(fā)。

此外，這些模型在特定應(yīng)用中顯示出顯著改進(jìn)。例如，Cephalo可以在分析生物材料時(shí)生成微觀結(jié)構(gòu)的詳細(xì)描述，這對(duì)于理解材料特性和性能至關(guān)重要。在斷裂分析中，該模型準(zhǔn)確描述裂紋擴(kuò)展并提出提高材料韌性的方法的能力尤為重要。這些結(jié)果凸顯了Cephalo在推進(jìn)材料研究和為現(xiàn)實(shí)世界挑戰(zhàn)提供實(shí)用解決方案方面的潛力。

本文轉(zhuǎn)載自 ??魯班模錘??，作者：龐德公

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

Cephalo

多模態(tài)

視覺

已于2024-11-8 14:56:28修改

贊

回復(fù)