Packing Analysis:LLM 樣本 Padding 與 Packing 的對比
一、背景我們之前已經分享過幾篇關于SamplePacking相關的文章,也提到了其中的性能優化問題。最近今天又看到一篇新的論文,這里進行簡單介紹。對應的論文為:[2410.08081]PackingAnalysis:PackingIsMoreAppropriateforLargeModelsorDatasetsinSupervisedFinetuning相關工作可以參考我們之前的文章:SamplePacking:長序列LLM訓練的Attention問題及優化SamplePacking綜述:LLM效果與效率的TradeoffBinaryBlockMasking:加快稀疏A...