MLKV:跨層 KV Cache 共享,降低內存占用
一、背景LLM中KVCache占據的顯存越來越大,有很多方案開始嘗試跨層共享K和V,比如我們之前介紹的YOCO、CLA以及LayerCondensedKVCache等,本文介紹的方案也極其類似。對應的論文為:[2406.09297]MLKV:MultiLayerKeyValueHeadsforMemoryEfficientTransformerDecoding對應的代碼庫為:??https:github.comzaydzuhripythiamlkv??PS:感覺本文創新度明顯不足,相關實驗也非常少,只在一個160M模型測試,甚至沒有測試7B模型。二、...