Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動
眾所周知,大語言模型的訓(xùn)練常常需要數(shù)月的時間,使用數(shù)百乃至上千個GPU。以LLaMA270B模型為例,其訓(xùn)練總共需要1,720,320GPUhours。由于這些工作負(fù)載的規(guī)模和復(fù)雜性,導(dǎo)致訓(xùn)練大模型存在著獨特的系統(tǒng)性挑戰(zhàn)。最近,許多機(jī)構(gòu)在訓(xùn)練SOTA生成式AI模型時報告了訓(xùn)練過程中的不穩(wěn)定情況,它們通常以損失尖峰的形式出現(xiàn),比如谷歌的PaLM模型訓(xùn)練過程中出現(xiàn)了多達(dá)20次的損失尖峰。數(shù)值偏差是造成這種訓(xùn)練不穩(wěn)定性的潛在原因,由于大語言...