Reyes:一個從0到1開始訓練的多模態大模型(技術報告)
原創
最近,筆者系統的看了下一些比較經典的多模態大模型實現思路,本著動手實踐的態度,從零到一實現了一個多模態大模型,并命名為??Reyes(睿視)???,R:睿,eyes:眼。Reyes的參數量為8B,視覺編碼器使用的是??InternViT300M448pxV25???,語言模型側使用的是??Qwen2.57BInstruct??,與NVLM1.0等相關多模態大模型一樣,Reyes也通過一個兩層MLP投影層連接視覺編碼器與語言模型。最終,Reyes8B(0.447分)以更小的參數...