快速开始

快速开始#

环境准备#

推荐使用pip直接安装最新版本的AngelSlim：

pip install angelslim

如果需要编译或者自定义安装，具体可参考安装文档

运行#

量化#

量化我们目前支持FP8、INT8和INT4的量化方式，执行流程也非常简单，tools/run.py是执行脚本，通过--config或者-c指定模型压缩的yaml配置文件，即可一键式运行程序，例如执行Qwen3-1.7B模型的fp8_static量化流程，可以直接运行：

python3 tools/run.py -c configs/qwen3/fp8_static/qwen3-1_7b_fp8_static.yaml       

更多的模型、压缩策略具体请在configs文件夹中查看，工具中每类模型，不同压缩策略都有一个单独的yaml文件，开发者可以直接找到对应的yaml文件进行执行。
如果在量化时显存资源不足，可采取low_memory的模式，可以使用最少的显存进行模型量化过程，请参考../features/quantization/fp8.html#fp8-low-memory
如果想要修改yaml配置文件中的内容，请参考准备配置文件的详细教程文档。

备注

如果Hugging Face模型下载地址访问不通，为了解决下载问题，建议您尝试从 ModelScope 进行模型下载。

如果想要获取AngelSlim中支持的压缩策略列表，可以执行下面代码：

from angelslim import engine
engine.get_supported_compress_method()

fp8 block-wise量化可以使用并行GPU转化脚本，其中block_size是权重量化scale对应分块形状，num_workers是并行数

python3 tools/fp8_quant_blockwise.py \
    --block_size 128 128 \
    --num_workers 32 \
    --input_path ${INPUT_PATH} \
    --output_path ${OUTPUT_PATH}

投机采样#

投机采样（Speculative Decoding）是一种加速大语言模型推理的技术，通过草稿模型预测多个token，然后由主模型一次性进行验证，从而提高生成效率。 Eagle3是目前使用最多、加速效果最好的投机采样方法，AngelSlim提供了完整的Eagle3训练和基准测试工具。

具体使用请参考使用文档。

部署#

以vLLM部署为例，如果已经产出压缩好的模型，可以按照下面的方式快速部署，如果想要查看能多backend和更多部署测试方式，请查看部署文档

环境配置：

为保证vLLM环境的正常运行，请使用以下命令安装所需依赖：
```
pip install "vllm>=0.8.5.post1"
```
启动兼容OpenAI格式的API服务

以下指令将启动兼容OpenAI API格式的服务，默认在 http://0.0.0.0:8080 地址进行访问：
```
python3 -m vllm.entrypoints.openai.api_server \
    --host 0.0.0.0 \
    --port 8080 \
    --model ${MODEL_PATH} \
    --tensor-parallel-size 4 \
    --pipeline_parallel_size 1 \
    --gpu-memory-utilization 0.9 \
    --max-model-len 4096 \
    --trust-remote-code
```
其中:
- MODEL_PATH模型路径可以为本地路径或 huggingface 路径;
- --tensor-parallel-size设置张量并行数;
- --gpu-memory-utilization设置显存占用比例;
- --max-model-len指定模型最大上下文长度。

快速开始

目录

快速开始#

环境准备#

运行#

量化#

投机采样#

部署#