特性列表¶
MindIE LLM 支持的特性包括基础特性、量化特性、长序列特性、调度特性、加速特性和交互特性,每种特性的开启方式、限制等详细信息请参见简介中的链接。
| 大类 | 特性 | 简介 | 价值 |
|---|---|---|---|
| 基础特性 | Multi-Lora | 使用不同的 LoRA 权重进行推理。详见 Multi-LoRA。 | 支持 LoRA 特性,动态加载、卸载权重 |
| MoE | 通过引入稀疏激活的专家网络,在不显著增加计算成本的前提下大幅扩展模型参数规模,从而提升模型能力。详见 MoE。 | 以万亿级参数量容纳海量知识,性能潜力远超稠密模型。 | |
| MLA | 利用低秩键值联合压缩来消除推理时键值缓存的瓶颈,支持高效推理。详见 MLA。 | 高效处理超长上下文 | |
| 负载均衡 | 降低 NPU 卡间的不均衡度,从而提升模型推理的性能。详见 负载均衡。 | 降低时延 | |
| 共享专家外置 | 将共享专家独立部署在单独的 NPU 卡上,与路由专家/冗余专家分离。详见 共享专家外置。 | 优化 TPOT | |
| Expert Parallel | 通过将专家分别部署在不同的设备上,实现专家级别的并行计算。详见 Expert Parallel。 | 降低时延,提高吞吐 | |
| Data Parallel | 将推理请求划分为多个批次,并将每个批次分配给不同的设备进行并行处理。详见 Data Parallel。 | 提高吞吐 | |
| Tensor Parallel | 通过将张量(如权重矩阵、激活值等)在多个设备(如 NPU)之间进行切分,实现模型的分布式推理。详见 Tensor Parallel。 | 降低单卡显存 | |
| 量化特性 | 离群值抑制 | 通过抑制数据中的异常值,来提升大模型量化的精度。详见 离群值抑制。 | 减少量化精度损失 |
| PD MIX 量化 | 在模型推理的 Prefill 和 Decode 阶段使用不同的量化方式。详见 PD MIX 量化。 | 降低显存 | |
| W8A8 量化 | 将权重和激活值统一量化为 int8 格式,以减少模型体积并加速推理计算。详见 W8A8 量化。 | 降低显存、提高吞吐 | |
| W4A8 混合量化 | 对模型不同层级采用不同量化方式,其中权重采用 4 位 / 8 位分级量化,激活统一采用 8 位量化。详见 W4A8 混合量化。 | 降低显存、提高吞吐 | |
| W8A16 量化 | 仅将权重量化为 8 bit。详见 W8A16 量化。 | 降低显存、提高吞吐 | |
| Attention 量化 | 将 Q、K、V 统一量化为 8 bit,有效压缩 KV Cache 显存,加速解码阶段注意力计算,显著提升模型吞吐。详见 Attention 量化。 | 降低显存、提高吞吐 | |
| FA3 量化 | 采用类似 Attention 量化,区别在于对 k 的非 rope 张量进行 8 位量化,而 k 的 rope 张量不量化,以优化 KV 显存占用和解码速度,提升吞吐。详见 FA3 量化。 | 降低显存、提高吞吐 | |
| KV Cache Int8 | 通过降低 KV 显存减少重计算来提升吞吐。详见 KV Cache Int8。 | 降低显存、提高吞吐 | |
| W8A8SC 稀疏量化 | 通过稀疏化将不重要的权重置零、将高精度数值转为低位宽存储,以及使用压缩算法进一步减小权重体积,从而实现模型的加速。详见 W8A8SC 稀疏量化。 | 高稀疏率、降低显存、提高最大吞吐 | |
| W16A16SC 量化 | 一种先通过算法稀疏化模型权重,再压缩存储的浮点稀疏量化方法。详见 W16A16SC 量化。 | 高稀疏率、提高吞吐、避免反量化 | |
| 长序列特性 | Context Parallel | 通过将长序列在上下文维度进行切分,分配到不同设备并行处理,减少首 token 响应时间。详见 Context Parallel。 | 降低显存、降低首 token 时延 |
| Sequence Parallel | 通过对 KV Cache 进行切分,使得每张卡保存的 KV Cache 各不相同,达到节省显存,支持长序列的功能。详见 Sequence Parallel。 | 降低显存 | |
| 调度特性 | 异步调度 | 对于 maxBatchSize 较大,且输入输出长度较长的场景,该特性使用模型推理阶段的耗时掩盖数据准备阶段和数据返回阶段的耗时,避免 NPU 计算资源和显存资源浪费。详见 异步调度。 | 降低时延 |
| SplitFuse | 将长提示词分解成更小的块,并在多个 forward step 中进行调度,降低 Prefill 时延。详见 SplitFuse。 | 降低显存和时延、提高吞吐 | |
| SLO 调度优化 | 确保 SLO 的前提下提升系统吞吐量。详见 SLO 调度优化。 | 提高吞吐 | |
| 加速特性 | Micro Batch | 批处理过程中,将数据切分为更小粒度的多个 batch 运行,使得硬件资源得以充分利用,以提高推理吞吐。详见 Micro Batch。 | 提高吞吐 |
| 并行解码 | 利用算力优势弥补访存带宽受限的影响,提升算力利用率。详见 并行解码。 | 提高吞吐 | |
| MTP | 在推理过程中,模型不仅预测下一个 token,而且会同时预测多个 token,从而显著提升模型生成速度。详见 MTP。 | 提高吞吐 | |
| Prefix Cache | 复用跨请求的重复 Block 对应的 KV Cache,从而减少 Prefill 的时间。详见 Prefix Cache。 | 降低首 token 时延 | |
| KV Cache 池化 | 将 DRAM 甚至 SSD 等更大容量的存储介质纳入前缀缓存池,从而突破显存的容量限制。详见 KV Cache 池化。 | 提高 Prefix Cache 命中率 | |
| 交互特性 | Function Call | 支持 Function Call 函数调用,使大模型具备使用工具能力。详见 Function Call。 | 能够借助外部工具来扩展应用范围 |
| 思考解析 | 对大模型的输出内容进行结构化解析,将思考过程和输出结果进行分离。详见 思考解析。 | 提升复杂场景推理性能 | |
| 其他 | 权重离线切分 | 通过预切分权重至tmpfs,优化大规模模型加载效率,减少NPU传输时间。详见 权重离线切分。 | 降低权重加载耗时 |
特性叠加矩阵¶
若干特性的兼容性通过以下符号表示:
- ✅ = 完全兼容
- ❌ = 不兼容
- ❔ = 待定
说明
- 对于 ❌ 或 ❔ 标注的情况,可以关联 issues 跟踪。
- 这里仅列举主流模型 DeepSeek 和 Qwen。
DeepSeek 模型¶
| 特性 | 负载均衡 | 共享专家外置 | Expert Parallel | Data Parallel | 离群值抑制 | PD MIX 量化 | W8A8 量化 | W4A8 混合量化 | FA3 量化 | Context Parallel | Sequence Parallel | 异步调度 | SLO 调度优化 | Micro Batch | MTP | Prefix Cache | KV Cache 池化 | Function Call | 思考解析 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 负载均衡 | ✅ | ||||||||||||||||||
| 共享专家外置 | ✅ | ✅ | |||||||||||||||||
| Expert Parallel | ✅ | ✅ | ✅ | ||||||||||||||||
| Data Parallel | ✅ | ✅ | ✅ | ✅ | |||||||||||||||
| 离群值抑制 | ✅ | ✅ | ✅ | ✅ | ✅ | ||||||||||||||
| PD MIX 量化 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |||||||||||||
| W8A8 量化 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||||||||||
| W4A8 混合量化 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |||||||||||
| FA3 量化 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ||||||||||
| Context Parallel | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | |||||||||
| Sequence Parallel | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||||||
| 异步调度 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |||||||
| SLO 调度优化 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||||
| Micro Batch | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ✅ | |||||
| MTP | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||
| Prefix Cache | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | |||
| KV Cache 池化 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | ✅ | ||
| Function Call | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | ✅ | ✅ | |
| 思考解析 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ |
说明
- 对于 DeepSeek 模型,最大支持 Context Parallel + Sequence Parallel + prefix cache + KV Cache 池化 + MTP + 异步调度 + FA3 量化叠加,并支持 7 种特性自由组合。短序列(上下文长度短于16k)通常无需开启 Context Parallel 和 Sequence Parallel,长序列(上下文长度 128k)不能叠加 MTP 特性。
Qwen 模型¶
| 特性 | Multi-Lora | 负载均衡 (仅支持 Qwen-MoE) | Data Parallel | 离群值抑制 | PD MIX 量化 | W8A8 量化 | W8A16 量化 | KV Cache int8 | W8A8SC 稀疏量化 | W16A16SC 稀疏量化 | 异步调度 | SplitFuse | SLO 调度优化 | Micro Batch | 并行解码 | Prefix Cache | KV Cache 池化 | Function Call | 思考解析 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Multi-Lora | ✅ | ||||||||||||||||||
| 负载均衡 | ✅ | ✅ | |||||||||||||||||
| Data Parallel | ✅ | ✅ | ✅ | ||||||||||||||||
| 离群值抑制 | ❌ | ✅ | ✅ | ✅ | |||||||||||||||
| PD MIX 量化 | ❌ | ✅ | ✅ | ✅ | ✅ | ||||||||||||||
| W8A8 量化 | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | |||||||||||||
| W8A16 量化 | ❌ | ✅ | ✅ | ✅ | ❌ | ❌ | ✅ | ||||||||||||
| KV Cache int8 | ❌ | ✅ | ✅ | ❌ | ❌ | ✅ | ❌ | ✅ | |||||||||||
| W8A8SC 稀疏量化 | ❌ | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ | ||||||||||
| W16A16SC 稀疏量化 | ❌ | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ | |||||||||
| 异步调度 | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ||||||||
| SplitFuse | ❌ | ✅ | ✅ | ❌ | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ✅ | ✅ | |||||||
| SLO 调度优化 | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | ✅ | ❌ | ✅ | ||||||
| Micro Batch | ❌ | ❔ | ✅ | ✅ | ✅ | ✅ | ✅ | ❔ | ❌ | ❌ | ❔ | ❔ | ❔ | ✅ | |||||
| 并行解码 | ❌ | ✅ | ✅ | ❌ | ❌ | ✅ | ❌ | ❔ | ✅ | ❌ | ❌ | ❌ | ❌ | ❔ | ✅ | ||||
| Prefix Cache | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ | ✅ | |||
| KV Cache 池化 | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ | ✅ | ✅ | ||
| Function Call | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❔ | ❌ | ❌ | ❌ | ✅ | ✅ | ✅ | ✅ | |
| 思考解析 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❔ | ✅ | ❌ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | ✅ |