特性列表¶

MindIE LLM 支持的特性包括基础特性、量化特性、长序列特性、调度特性、加速特性和交互特性，每种特性的开启方式、限制等详细信息请参见简介中的链接。

大类	特性	简介	价值
基础特性	Multi-Lora	使用不同的 LoRA 权重进行推理。详见 Multi-LoRA。	支持 LoRA 特性，动态加载、卸载权重
	MoE	通过引入稀疏激活的专家网络，在不显著增加计算成本的前提下大幅扩展模型参数规模，从而提升模型能力。详见 MoE。	以万亿级参数量容纳海量知识，性能潜力远超稠密模型。
	MLA	利用低秩键值联合压缩来消除推理时键值缓存的瓶颈，支持高效推理。详见 MLA。	高效处理超长上下文
	负载均衡	降低 NPU 卡间的不均衡度，从而提升模型推理的性能。详见负载均衡。	降低时延
	共享专家外置	将共享专家独立部署在单独的 NPU 卡上，与路由专家/冗余专家分离。详见共享专家外置。	优化 TPOT
	Expert Parallel	通过将专家分别部署在不同的设备上，实现专家级别的并行计算。详见 Expert Parallel。	降低时延，提高吞吐
	Data Parallel	将推理请求划分为多个批次，并将每个批次分配给不同的设备进行并行处理。详见 Data Parallel。	提高吞吐
	Tensor Parallel	通过将张量（如权重矩阵、激活值等）在多个设备（如 NPU）之间进行切分，实现模型的分布式推理。详见 Tensor Parallel。	降低单卡显存
量化特性	离群值抑制	通过抑制数据中的异常值，来提升大模型量化的精度。详见离群值抑制。	减少量化精度损失
	PD MIX 量化	在模型推理的 Prefill 和 Decode 阶段使用不同的量化方式。详见 PD MIX 量化。	降低显存
	W8A8 量化	将权重和激活值统一量化为 int8 格式，以减少模型体积并加速推理计算。详见 W8A8 量化。	降低显存、提高吞吐
	W4A8 混合量化	对模型不同层级采用不同量化方式，其中权重采用 4 位 / 8 位分级量化，激活统一采用 8 位量化。详见 W4A8 混合量化。	降低显存、提高吞吐
	W8A16 量化	仅将权重量化为 8 bit。详见 W8A16 量化。	降低显存、提高吞吐
	Attention 量化	将 Q、K、V 统一量化为 8 bit，有效压缩 KV Cache 显存，加速解码阶段注意力计算，显著提升模型吞吐。详见 Attention 量化。	降低显存、提高吞吐
	FA3 量化	采用类似 Attention 量化，区别在于对 k 的非 rope 张量进行 8 位量化，而 k 的 rope 张量不量化，以优化 KV 显存占用和解码速度，提升吞吐。详见 FA3 量化。	降低显存、提高吞吐
	KV Cache Int8	通过降低 KV 显存减少重计算来提升吞吐。详见 KV Cache Int8。	降低显存、提高吞吐
	W8A8SC 稀疏量化	通过稀疏化将不重要的权重置零、将高精度数值转为低位宽存储，以及使用压缩算法进一步减小权重体积，从而实现模型的加速。详见 W8A8SC 稀疏量化。	高稀疏率、降低显存、提高最大吞吐
	W16A16SC 量化	一种先通过算法稀疏化模型权重，再压缩存储的浮点稀疏量化方法。详见 W16A16SC 量化。	高稀疏率、提高吞吐、避免反量化
长序列特性	Context Parallel	通过将长序列在上下文维度进行切分，分配到不同设备并行处理，减少首 token 响应时间。详见 Context Parallel。	降低显存、降低首 token 时延
长序列特性	Sequence Parallel	通过对 KV Cache 进行切分，使得每张卡保存的 KV Cache 各不相同，达到节省显存，支持长序列的功能。详见 Sequence Parallel。	降低显存
调度特性	异步调度	对于 maxBatchSize 较大，且输入输出长度较长的场景，该特性使用模型推理阶段的耗时掩盖数据准备阶段和数据返回阶段的耗时，避免 NPU 计算资源和显存资源浪费。详见异步调度。	降低时延
	SplitFuse	将长提示词分解成更小的块，并在多个 forward step 中进行调度，降低 Prefill 时延。详见 SplitFuse。	降低显存和时延、提高吞吐
	SLO 调度优化	确保 SLO 的前提下提升系统吞吐量。详见 SLO 调度优化。	提高吞吐
加速特性	Micro Batch	批处理过程中，将数据切分为更小粒度的多个 batch 运行，使得硬件资源得以充分利用，以提高推理吞吐。详见 Micro Batch。	提高吞吐
	并行解码	利用算力优势弥补访存带宽受限的影响，提升算力利用率。详见并行解码。	提高吞吐
	MTP	在推理过程中，模型不仅预测下一个 token，而且会同时预测多个 token，从而显著提升模型生成速度。详见 MTP。	提高吞吐
	Prefix Cache	复用跨请求的重复 Block 对应的 KV Cache，从而减少 Prefill 的时间。详见 Prefix Cache。	降低首 token 时延
	KV Cache 池化	将 DRAM 甚至 SSD 等更大容量的存储介质纳入前缀缓存池，从而突破显存的容量限制。详见 KV Cache 池化。	提高 Prefix Cache 命中率
交互特性	Function Call	支持 Function Call 函数调用，使大模型具备使用工具能力。详见 Function Call。	能够借助外部工具来扩展应用范围
	思考解析	对大模型的输出内容进行结构化解析，将思考过程和输出结果进行分离。详见思考解析。	提升复杂场景推理性能
	思考预算	控制模型思考深度，当思考内容超过设定的thinking_budget时，系统会使用提示词对思考过程进行截断。详见思考解析。	提升复杂场景推理性能
其他	权重离线切分	通过预切分权重至tmpfs，优化大规模模型加载效率，减少NPU传输时间。详见权重离线切分。	降低权重加载耗时

特性叠加矩阵¶

若干特性的兼容性通过以下符号表示：

✅ = 完全兼容
❌ = 不兼容
❔ = 待定

说明

对于 ❌ 或 ❔ 标注的情况，可以关联 issues 跟踪。
这里仅列举主流模型 DeepSeek 和 Qwen。

DeepSeek 模型¶

特性	负载均衡	共享专家外置	Expert Parallel	Data Parallel	离群值抑制	PD MIX 量化	W8A8 量化	W4A8 混合量化	FA3 量化	Context Parallel	Sequence Parallel	异步调度	SLO 调度优化	Micro Batch	MTP	Prefix Cache	KV Cache 池化	Function Call	思考解析
负载均衡	✅
共享专家外置	✅	✅
Expert Parallel	✅	✅	✅
Data Parallel	✅	✅	✅	✅
离群值抑制	✅	✅	✅	✅	✅
PD MIX 量化	✅	✅	✅	✅	✅	✅
W8A8 量化	✅	✅	✅	✅	✅	✅	✅
W4A8 混合量化	✅	✅	✅	✅	✅	✅	✅	✅
FA3 量化	✅	✅	✅	✅	✅	✅	✅	❌	✅
Context Parallel	✅	✅	✅	❌	✅	✅	✅	❌	✅	✅
Sequence Parallel	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
异步调度	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
SLO 调度优化	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Micro Batch	✅	✅	✅	✅	✅	✅	✅	✅	✅	❌	❌	❌	❌	✅
MTP	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Prefix Cache	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	❌	✅	✅
KV Cache 池化	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	❌	✅	✅	✅
Function Call	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	❌	✅	✅	✅	✅
思考解析	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	❌	✅	✅	✅	✅	✅

说明

对于 DeepSeek 模型，最大支持 Context Parallel + Sequence Parallel + prefix cache + KV Cache 池化 + MTP + 异步调度 + FA3 量化叠加，并支持 7 种特性自由组合。短序列（上下文长度短于16k）通常无需开启 Context Parallel 和 Sequence Parallel，长序列（上下文长度 128k）不能叠加 MTP 特性。

Qwen 模型¶

特性	Multi-Lora	负载均衡 (仅支持 Qwen-MoE)	Data Parallel	离群值抑制	PD MIX 量化	W8A8 量化	W8A16 量化	KV Cache int8	W8A8SC 稀疏量化	W16A16SC 稀疏量化	异步调度	SplitFuse	SLO 调度优化	Micro Batch	并行解码	Prefix Cache	KV Cache 池化	Function Call	思考解析
Multi-Lora	✅
负载均衡	✅	✅
Data Parallel	✅	✅	✅
离群值抑制	❌	✅	✅	✅
PD MIX 量化	❌	✅	✅	✅	✅
W8A8 量化	❌	✅	✅	✅	✅	✅
W8A16 量化	❌	✅	✅	✅	❌	❌	✅
KV Cache int8	❌	✅	✅	❌	❌	✅	❌	✅
W8A8SC 稀疏量化	❌	❌	✅	❌	❌	❌	❌	❌	✅
W16A16SC 稀疏量化	❌	❌	✅	❌	❌	❌	❌	❌	❌	✅
异步调度	❌	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
SplitFuse	❌	✅	✅	❌	✅	✅	❌	❌	❌	❌	✅	✅
SLO 调度优化	❌	✅	✅	✅	✅	✅	✅	✅	❌	❌	✅	❌	✅
Micro Batch	❌	❔	✅	✅	✅	✅	✅	❔	❌	❌	❔	❔	❔	✅
并行解码	❌	✅	✅	❌	❌	✅	❌	❔	✅	❌	❌	❌	❌	❔	✅
Prefix Cache	❌	✅	✅	✅	✅	✅	✅	✅	✅	❌	✅	❌	❌	❌	❌	✅
KV Cache 池化	❌	✅	✅	✅	✅	✅	✅	✅	✅	❌	✅	❌	❌	❌	❌	✅	✅
Function Call	✅	✅	✅	✅	✅	✅	✅	✅	✅	❌	❔	❌	❌	❌	✅	✅	✅	✅
思考解析	✅	✅	✅	✅	✅	✅	✅	✅	✅	❔	✅	❌	✅	✅	✅	❌	✅	✅	✅