Qwen2.5VL量化指南

Qwen2.5VL量化指南#

Qwen2.5VL模型主要采用FP8（static、dynamic） 和W4A16（AWQ、GPTQ） 两种方式进行模型压缩，以下是详细的量化配置与操作说明。

Qwen2.5VL的FP8量化采用per-tensor粒度，支持动态量化（dynamic）和静态量化（static）两种模式。

FP8量化的配置文件可参考路径：config/qwen2_5_vl/fp8_dynamic 和 config/qwen2_5_vl/fp8_static，核心参数如下：

name：数据集类型，固定选择MultiModalDataset。
data_path：数据集路径，支持HuggingFace数据集（默认使用HuggingFaceM4/ChartQA）或jsonl文件路径。自定义数据集需参考dataset/multimodal_fake_data/fake_data.json格式。

通过以下命令启动FP8量化校准：

# 动态FP8量化
python3 tools/run.py -c configs/qwen2_5_vl/quantization/fp8_dynamic/qwen2_5_vl-7b_fp8_dynamic.yaml

# 静态FP8量化
python3 tools/run.py -c configs/qwen2_5_vl/quantization/fp8_static/qwen2_5_vl-7b_fp8_static.yaml

QwenVL的W4A16量化中，权重采用per-group粒度（分组大小为128），激活不进行量化，支持AWQ和GPTQ两种算法。

INT4量化的配置文件可参考路径：config/qwen2_5_vl/int4_awq 和 config/qwen2_5_vl/int4_gptq，核心参数如下：

通过以下命令启动INT4量化校准：

# AWQ算法INT4量化
python3 tools/run.py -c configs/qwen2_5_vl/quantization/int4_awq/qwen2_5_vl-32b_int4_awq.yaml

# GPTQ算法INT4量化
python3 tools/run.py -c configs/qwen2_5_vl/quantization/int4_gptq/qwen2_5_vl-7b_int4_gptq.yaml

vLLM框架支持QwenVL2.5的FP8（per-tensor）量化和INT4（AWQ、GPTQ）量化模型部署，建议使用vllm==0.10.0版本。

部署步骤：

cd AngelSlim/scripts/deploy
sh run_vllm.sh