LLM用户指南¶ 简介 AclGraph 模型迁移指南 核心概念与配置 配置参数说明(服务化) 配置参数说明(模型侧) 配置兼容工具 虚拟机手动绑核配置介绍 推理与服务化 服务化接口使用指导 PD混合服务部署 离线推理 性能调优 特性介绍 特性列表 基础特性 Multi-Lora MoE MLA 负载均衡 共享专家外置 Expert Parallel Data Parallel Tensor Parallel 量化特性 Anti-Outlier离群值抑制 PDMIX量化 W8A8量化 W4A8混合量化 W8A16量化 Attention量化 FA3量化 KV Cache int8 W8A8SC稀疏量化 W16A16SC稀疏量化 长序列特性 Context Parallel Sequence Parallel 调度特性 异步调度 SplitFuse SLO调度优化 加速特性 Micro Batch 并行解码 MTP Prefix Cache KV Cache池化 交互特性 Function Call 思考解析 思考预算 附录 FAQ 环境变量说明