量子化

量子化

量子化 (quantization)は、ニューラルネットワークにおいて、パラメータや中間層の出力を有限の精度で表現することで、モデルのパラメータ数や計算負荷を削減する手法です。

量子化には、重み量子化 (weight quantization)とアクティベーション量子化 (activation quantization)の2つのタイプがあります。重み量子化では、ニューラルネットワークの重みを有限の精度で表現することで、パラメータ数を削減します。アクティベーション量子化では、中間層の出力を有限の精度で表現することで、計算負荷を削減します。

量子化は、学習済みのニューラルネットワークに対して適用することができますが、新しいニューラルネットワークを学習する際にも量子化を組み込むことができる手法もあります。

量子化は、計算負荷を減らすだけでなく、組み込みシステムやモバイルデバイスにおいて使用することができるようにすることができます。また、ハードウェアアクセラレータを使用した実行時間も短縮することができるため、実用的な手法としても利用されています。