文档

目录

AngelSlim

Efficient LLM Compression Toolkit

Star Watch Fork

AngelSlim是腾讯自研的,致力于打造更易用、更全面和更高效的大语言模型压缩工具包。我们将开源量化、投机采样、稀疏化和蒸馏等压缩算法。覆盖主流最前沿的大模型,并且端到端打通从压缩到部署的全流程。

(AngelSlim, developed by Tencent, is a large language model compression toolkit engineered for enhanced usability, comprehensiveness, and efficiency. We will open-source compression algorithms including quantization, speculative decoding, pruning, and distillation. Supporting cutting-edge mainstream LLMs, the toolkit streamlines the complete end-to-end workflow from compression to deployment.)

AngelSlim architecture

🌟AngelSlim主要特性有:

  • 高度集成化:本工具将主流的压缩算法集成到工具,开发者可一键式调用,具有很好的易用性。

  • 持续算法创新:本工具除了集成工业界使用最广的算法,还持续自研更好的压缩算法,并且会陆续开源。

  • 追求极致性能:在模型压缩流程、压缩算法部署方面,本工具持续端到端优化,致力于用更少的成本压缩部署大模型。

目前支持的模型及压缩策略:

AngelSlim 支持的场景、模型和技术#

场景

模型

量化

投机采样

其他技术

文生文(LLM)

  • Hunyuan-Dense

  • Hunyuan-MoE

  • Qwen3

  • DeepSeek-V3/R1

  • GLM-4.6

  • Qwen2.5

  • FP8-Static/Dynamic

  • INT8-Dynamic

  • INT4-GPTQ/AWQ/GPTAQ

  • NVFP4

  • LeptoQuant

  • Tequila

  • Eagle3

  • SpecExit

  • 稀疏注意力

    • Minference(建设中)

图/视频生文(VLM)

  • Hunyuan-VL

  • HunyuanOCR

  • Qwen3-VL

  • Qwen2.5-VL

  • FP8-Static/Dynamic

  • INT8-Dynamic

  • INT4-GPTQ/AWQ/GPTAQ

  • Eagle3

  • Token剪枝

    • 建设中

文生图/视频/3D

  • Hunyuan-Image

  • Hunyuan-Video

  • Hunyuan-3D

  • Qwen-Image

  • FLUX

  • Wan

  • SDXL

  • FP8-Dynamic

  • FP8-Weight-Only

-

  • Cache技术

    • DeepCache

    • TeaCache

  • 稀疏注意力

    • 建设中

语音(TTS/ASR)

  • Qwen3-Omni

  • Qwen2-Audio

  • Fun-CosyVoice3

  • FP8-Static/Dynamic

  • INT8-Dynamic

  • Eagle3

  • Token剪枝

    • 建设中

文档#

入门指南

部署文档

设计文档

更多#

想了解更多信息,可以给我们在GitHub Issues上留言,也可以加入我们的微信交流群讨论更多的技术问题。