AI架構系列：picoLLM 大模型的量化魔術師原創

發布于 2025-3-27 09:30

瀏覽

0收藏

Picovoice首席執行官Alireza Kenarsari指出，“picoLLM是Picovoice 深度學習研究人員和量產工程師共同努力的成果。前者研究出X 位量化算法，而后者構建了跨平臺的LLM 推理引擎。目的還是在于將LLM遍及到任何設備且將控制權交還給企業”。

picoLLM Inference可以免費使用，沒有任何使用限制。無論是在概念驗證上工作，還是為數百萬用戶提供服務。只需幾行代碼即可部署。

注：其余的產品線有非商用免費版，也有收費版

1.認識量化（Quantization）

大模型有個基本的指標就是模型參數規模，客觀而言參數規模越大，效果越佳，但是所需的內存越多。例如，要部署 7.7GB 大小的Mistral 7B，需要GPU的VRAM大小要超過8GB才能在GPU完全加載。因此意味著運行更大規模的模型將需要具有更大規格的硬件，從而增加成本。

量化是一種壓縮技術，將高精度值映射到低精度值。對于任意的大模型，這意味著它們的權重和激活精度會被調整，肯定會對影響模型的能力。在實際的運用過程中發現，某些情況下雖然明顯的減低精度，然而卻又能獲得和原來不相上下的結果。

量化通過降低內存帶寬需求和提高緩存利用率來提高性能，不同精度級別的量化過程能夠更多的設備上運行大模型。

LLMs通常使用全精度（float32）或半精度（float16）的浮點數進行訓練。一個float16有16位，即2個字節。因此在 FP16上訓練參數規模為1B的大模型則至少需要2GB的內存，這還不包括訓練過程中的優化器內存、激活內存和梯度內存。

量化其實就是想找到一種方法，將FP32權重的值的范圍([最小值，最大值])表示為較低精度的值，例如FP16甚至INT4（整數 4 位）的數據類型。典型的情況是從FP32到INT8。

下圖為一個具體的例子，將FP16格式的數組量化為INT8的過程，當然最后可以從INT8再次還原為FP16。這樣一來原來模型的存儲大小就被有效的降低了。

AI架構系列：picoLLM 大模型的量化魔術師-AI.x社區

其實換個思路來講，就是將數軸進行壓縮。這里的難題在于如何的量化才能降低存儲開銷，但是又能表達出原來的意思。

AI架構系列：picoLLM 大模型的量化魔術師-AI.x社區

目前有不少的量化思路，均勻量化是模型量化中常用的一種技術，用于降低深度學習模型中權重和激活的精度。在量化過程中將值的范圍劃分為固定數量的等距區間，然后將每個值映射到最近區間的中心。此過程有助于減少表示每個值所需的位數。

與更復雜的量化技術相比，均勻量化的主要優勢之一是其簡單易用。然而，均勻量化可能并不總是能捕捉到數據分布的細微差別。想象一下原始參數的取值在[3.5, 3.9]，若都被量化到4，的確會導致潛在的信息丟失和性能下降。

另一方面，非均勻量化允許量化步距不均勻分布，從而能更準確和更靈活。量化過程由離散量化水平（Xi）和相應的量化步驟（?i）定義。當實數落在特定的量化步驟范圍（?i， ?i+1）內時，量化器將其分配到相應的量化級別（Xi）。非均勻量化方法（如對數分布）側重于以指數而不是線性方式調整量化步驟和水平，這可以通過有效捕獲重要值區域來提高準確性。

AI架構系列：picoLLM 大模型的量化魔術師-AI.x社區