MLLM中”模態懶惰“和”模態偏差“問題常見解決方案總結。本篇繼續說明MLLM中多模態對齊的難點以及現有的解決方法,本系列要說明的主要難點有:多模態數據構建跨模態差異影響融合效果模態對齊評估效率比較低上一篇中講到了多模態數據構建的難點和解決方法,???大模型面經——MLLM中模態對齊有哪些難點?有什么解決方法???本篇開始總結跨模態差異影響融合效果部分。具體來說就是不同模態特征分布差異顯著(如圖像與文本的...
多模態大模型中模態對齊數據構建的難點及解決方案。多模態大模型相對于LLM的訓練難度更高一些,其中很關鍵的部分在于模態的對齊。多模態對齊需要把各種模態映射或對齊到token空間中,讓圖像、語音等多模態信息抽象為token表征,從而利用現有的LLM的技術實現多模態領域的思維鏈和涌現。那么本系列開始總結MLLM中多模態對齊的難點以及現有的解決方法,下面是本系列想要包含的內容。1.模態對齊的難點總結模態對齊數據構建跨模態差...
2025-06-10 10:42:03 771瀏覽 0點贊 0回復 0收藏
一種可以“自適應切換SFT與RL”的訓練框架分享。大家應該都還記得,DeepSeekR1的“SFT>RL>增強SFT>增強RL”這種左腳踩右腳直接起飛的操作,這說明監督微調(SFT)與強化學習(RL)交替訓練的訓練范式確實可以提高模型性能。很多大佬也有自己做小規模實驗,在進行新的訓練范式探索:預訓練后做兩次SFT接一次RL預訓練后先RL再SFT....那么如何設計訓練框架能實現效果最優呢?本篇分享一種可以“自適應切換SFT與RL”的訓練框架;這...
2025-05-27 06:48:51 1194瀏覽 0點贊 0回復 0收藏
LLMtraining轉inference需要加強的知識總結。這篇附帶一些職業規劃的討論,其實Training和Inference在不同公司不同崗位業務中的定位不同,但總得來說還是存在下面的區別:LLMTraining:包括但不限于優化模型架構(MoE),調節超參數優化loss,訓練微調(SFT,pretrain,RL,蒸餾)等等,這個是把模型訓得更聰明的過程。LLMInference:包括PD分離(KVcache優化,Pageattention,Radixattention),并行(各種parallelism,shardin...
2025-05-13 06:42:35 798瀏覽 0點贊 0回復 0收藏
智駕中的VLA方案總結。相對于VLM,最近智駕中開始流行VLA,VLM關注的重點在于環境建模,VLA除了考慮環境建模,還需要關注規劃和控制問題。總得來說,這些VLA方案中都包含兩個核心組件:PretrainedVLM,側重思考和慢推理ActionModel,側重動作預測那么本篇整合具身智能中主要的四種VLA方案,并聯合智駕領域進行總結。下面是一個快捷目錄。1.PretrainedVLMLLM+actionprediction2.Visionstateencoderdecodertransformer(fromscratc...
2025-05-13 06:41:08 714瀏覽 0點贊 0回復 0收藏
本篇分享RAG與longcontext結合的實踐方案。本篇始于一個老生常談的話題,“一旦大模型的ContextLength變大,RAG還有沒有存活的必要?”RAG主要通過問題從知識庫中找相關答案,然后把檢索到的內容再用大模型總結;Longcontext相當于把全部文本內容輸入給大模型,利用大模型查找或總結。這兩者評估的維度包括成本、是否使模型變得更智能、是否可以混合檢索和推理、是否可以緩存、推理時間等等。其實兩者之爭也相當于左右手之爭,...
2025-04-09 12:17:30 1620瀏覽 0點贊 0回復 0收藏
本文介紹一種人類場景交互合成方法人類場景交互(HSI)生成對于具身人工智能、虛擬現實和機器人技術等領域的應用至關重要。雖然現有的方法能夠在三維場景中合成逼真的人類動作,并生成看似合理的人與物體之間的交互,但這些方法嚴重依賴于包含配對的三維場景和動作捕捉數據的數據集。而在各種不同的環境和交互情況下收集這些數據既昂貴又耗時。本文介紹一種ZeroHSI,通過整合視頻生成技術和神經人體技術,實現了零樣本的四維人...
2025-03-24 13:12:04 1403瀏覽 0點贊 0回復 0收藏
本篇介紹超參數(學習率)跨模型尺度的遷移規律。眾所周知,完整訓練一次大型LLM的成本是昂貴的,這就決定了我們不可能像以前一樣直接在大型LLM上反復測試超參數。一個很自然的想法是希望可以在同結構的小模型上仔細搜索超參數,找到最優組合后直接遷移到大模型上。盡管這個想法很樸素,但要實現它并不簡單,它需要我們了解常見的超參數與模型尺度之間的縮放規律,本次介紹的文MaximalUpdateParametrization,簡稱“muP”,正是...
2025-03-17 13:07:44 1820瀏覽 0點贊 0回復 0收藏
本文介紹一種圖像編碼的方法。圖像標記化推動了自回歸圖像生成發展,但傳統2D網格標記和現有1D標記方法存在不足,如無法適應圖像內在復雜性。FlexTok創新之處在于可將2D圖像投影為可變長度、有序的1D標記序列,圖像標記化通過提供一種比原始像素更高效、更易處理的壓縮離散表示,極大地推動了自回歸圖像生成的發展。傳統方法多采用二維網格標記化,但像TiTok這樣的最新研究表明,一維標記化能夠通過消除網格冗余來實現高質量的...
2025-03-03 09:37:53 1851瀏覽 0點贊 0回復 0收藏
本篇主要總結目前三種scalinglaw:Pretrain、RL、TestTime相關的內容。現在關于scalinglaw是否“撞墻”的討論越來越多,ChinchillaScalingLaw推斷,"即使沒有新數據,也并不意味著模型效果提不上去了,很簡單,只要增加基座模型尺寸,效果仍然會提高,只是從付出的算力和獲得的效果提升來說很不合算,性價比過低"。這也是為什么大家由PretrainScalingLaw轉到RLScalingLaw和TestTimeScalingLaw的原因。本篇就來以面經的形式整理...
2025-02-27 12:50:47 2927瀏覽 0點贊 0回復 0收藏
?本篇分享SFT和RL在大模型訓練中起到的作用。監督微調(SFT)和強化學習(RL)都是目前大模型的基礎模型后訓練技術,像DeepSeekR1、kimi等的訓練方法都將兩種技術應用到了極致。如何去設計訓練步驟(先SFT再RL,還是直接RL)都需要對SFT和RL的能力有較深刻的了解。本篇就以面經的形式,探討SFT、RL兩種不同的后訓練范式在基于文本規則和視覺變體的情況下對模型記憶與泛化能力的作用。下面是一個快捷目錄。一、SFT和RL分別對基座大...
2025-02-21 16:17:38 2603瀏覽 0點贊 0回復 0收藏
本文介紹一種視覺tokenizer的生成。AIGC生成模型在人工智能領域發展迅速,視覺生成主要有基于語言模型和擴散模型兩種范式,而tokenizer是其核心組件。現有tokenizer分別針對圖像或視頻輸入設計,存在應用靈活性和數據可擴展性的局限。因此需要一種聯合圖像視頻標記器,以實現從兩種數據中聯合學習,緩解單模態數據稀缺問題,并提高模型的通用性和可擴展性。今天介紹一種OmniTokenizer方法,感興趣的小伙伴可以看看原文:https:a...
2025-01-09 10:15:07 2015瀏覽 0點贊 0回復 0收藏
本篇總結了多模態大模型的評測任務和指標。目前多模態大型語言模型(MLLMs)的研究主要集中在模型架構和訓練方法上,但用于評估這些模型的基準測試的分析還比較少。另外目前評測可能還存在三大問題:目標不一致:每個模態、基準測試都有不同的目標,導致研究領域碎片化。任務飽和:多樣化目標驅動的任務激增,這種飽和使得很難辨別真正創新或有影響力的基準測試,導致寶貴的資源被忽視或利用不足。指標演變與差異:曾經推出發一...
2024-12-20 14:47:59 7824瀏覽 0點贊 0回復 0收藏
?本文將以LLaVA和MiniGPT4為例介紹多模態大模型數據構造的方式。數據質量是決定多模態模型性能的關鍵因素。高質量的數據能夠減少噪聲干擾,提高模型的學習和預測準確性。同時多模態數據的多樣性直接影響模型的泛化能力。一個包含豐富多樣數據的集合能夠訓練出更加健壯的模型,使其能夠在不同的應用場景中表現良好。本文以LLaVA和MiniGPT4為例,介紹相關多模態數據的構造過程,給大家在訓練或者微調自己的多模態模型提供思路。L...
2024-11-19 12:54:36 3161瀏覽 0點贊 0回復 0收藏
?本篇總結了顯卡利用率評估方法及顯卡運用優化方法。本篇來總結一些顯卡優化的經驗,還是按照面經的形式給出,希望能給到大家一些實際訓練效率優化的幫助下面是一個快捷目錄。一、如何評估顯卡利用率?二、如何優化顯存利用率?一、如何評估顯卡利用率使用deepseed時,zero3如果沒有nvlink,多卡訓練下會變慢很多,下面有三種方法來評估訓練時發揮了多少GPU性能。1.flops比值法采用Nvidia可參考的顯卡峰值計算速度進行計算gpu...
2024-11-19 12:51:31 3040瀏覽 0點贊 0回復 0收藏
本文介紹經典模型之SwinTransformer。SwinTransformer是一種經典的視覺Transformer架構,專為計算機視覺任務設計,通過層次化的特征表達和創新的移位窗口自注意力機制,有效地處理高分辨率圖像,具有通用性和靈活性,適用于圖像分類、目標檢測和語義分割等多種視覺任務。感興趣的小伙伴可以看看論文:??https:arxiv.orgabs2103.14030??模型介紹上圖為SwinTransformer模型圖。整個模型采取層次化的設計,一共包含4個Stage,...
2024-11-08 12:36:25 4075瀏覽 0點贊 0回復 0收藏
?分布式訓練指南理論篇。本篇來總結一些分布式訓練的知識,還是按照面經的形式給出,希望能給到大家一些幫助。題目1訓練一個LLM,需要的顯存規模跟參數的關系是什么?2.如果有N張顯存足夠大的顯卡,怎么加速訓練?3.如果有N張顯卡,但每個顯卡顯存都不足以裝下一個完整的模型,應該怎么辦?4.PP推理時是串行的,1個GPU計算但其他空閑,有什么其他的優化方式?5.DP、TP、PP這3種并行方式可以疊加嗎?6.3D并行或者直接上多機多卡...
2024-11-04 13:56:14 2567瀏覽 0點贊 0回復 0收藏
本文介紹LLM大模型中其中一種思維鏈DoT。盡管傳統的思維鏈方法使大型語言模型能夠進行“思考”,例如思維樹和思維圖方法通過引入分叉結構來探索多種推理路徑。然而,這些方法通常需要額外的控制機制或依賴多個模型的協同工作,這無疑增加了實現和部署的難度。清華大學的研究團隊最近提出了一個新的思維鏈框架思維圖(DiagramofThought,DoT),號稱是能夠超越線性思維的突破。感興趣的小伙伴可以看看原文:??https:arxiv.orgp...
2024-10-29 14:06:42 2395瀏覽 0點贊 0回復 0收藏
?RAG工程經驗面經總結。雖然RAG工程整體有很多論文、算法和方法論,但在實際使用過程中,當數據量大了RAG很容易出現不可控的問題,本篇就針對實踐過程中遇到的問題總結面經進行分享,看看能不能給大家提供一些幫助。下面是一個快捷目錄。一.RAG如何去優化索引結構?二.當混合檢索以及基于不同大小的chunk去檢索效果都不太好的時候,如何優化?三.如何通過rerank去提升RAG效果的,有哪些方案?下面是答案。一.RAG如何去優化索引...
2024-10-24 13:29:30 2759瀏覽 0點贊 0回復 0收藏
?本文介紹視覺目標檢測模型YOLOv11。2024年9月30日,在YOLOVision活動上,Ultralytics團隊正式宣布發布YOLOv11。短短2年,YOLO就從YOLOv8一下子迭代到YOLOv11,可見目前AI的發展速度。感興趣的小伙伴可以看看官方的倉庫:https:github.comultralyticsultralytics模型介紹對比YOLOv8(Ultralytics前一代出品),主要有三個模型結構的變化:C3k2機制。上圖為C3k的網絡結構圖,2是指調用時C3k其中的參數N固定設置為2。不過從結構...
2024-10-18 15:26:52 7541瀏覽 0點贊 0回復 0收藏