8x7B MoE與Flash Attention 2結合,不到10行代碼實現快速推理
前段時間,Mistral AI 公布的 Mixtral 8x7B 模型爆火整個開源社區,其架構與 GPT-4 非常相似,很多人將其形容為 GPT-4 的「縮小版」。
我們都知道,OpenAI 團隊一直對 GPT-4 的參數量和訓練細節守口如瓶。Mistral 8x7B 的放出,無疑給廣大開發者提供了一種「非常接近 GPT-4」的開源選項。
在基準測試中,Mistral 8x7B 的表現優于 Llama 2 70B,在大多數標準基準測試上與 GPT-3.5 不相上下,甚至略勝一籌。
圖源:https://mistral.ai/news/mixtral-of-experts/
隨著這項研究的出現,很多人表示:「閉源大模型已經走到了結局?!?/span>
短短幾周的時間,機器學習愛好者 Vaibhav (VB) Srivastav 表示:隨著 AutoAWQ(支持 Mixtral、LLaVa 等模型的量化)最新版本的發布,現在用戶可以將 Mixtral 8x7B Instruct 與 Flash Attention 2 結合使用,達到快速推理的目的,實現這一功能大約只需 24GB GPU VRAM、不到十行代碼。
圖源:https://twitter.com/reach_vb/status/1741175347821883502
AutoAWQ 地址:https://github.com/casper-hansen/AutoAWQ
操作過程是這樣的:
首先是安裝 AutoAWQ 以及 transformers:
pip install autoawq git+https://github. com/huggingface/transformers.git
第二步是初始化 tokenizer 和模型:
第三步是初始化 TextStreamer:
第四步對輸入進行 Token 化:
第五步生成:
當你配置好項目后,就可以與 Mixtral 進行對話,例如對于用戶要求「如何做出最好的美式咖啡?通過簡單的步驟完成」,Mixtral 會按照 1、2、3 等步驟進行回答。
項目中使用的代碼:
Srivastav 表示上述實現也意味著用戶可以使用 AWQ 運行所有的 Mixtral 微調,并使用 Flash Attention 2 來提升它們。
看到這項研究后,網友不禁表示:真的很酷。
更多相關鏈接,請參考:
模型地址:https://huggingface.co/models?search=mixtral%20awq
Transformer 中量化技術:https://huggingface.co/docs/transformers/main/en/quantization