MindIE-LLM-Doc

主页

正在初始化搜索引擎

主页
用户指南
开发者指南
常见问题

MindIE-LLM-Doc

主页主页
目录
用户指南
用户指南
- 快速入门
- 安装指南
  安装指南
  - 安装指南总览
  - 安装说明
  - 安装 MindIE
  - 环境准备
  - 镜像安装
    镜像安装
    
    镜像使用指南
    
    Docker 安装
  - 物理机安装
    物理机安装
    
    准备软件包和依赖
    
    安装软件包和依赖
    
    物理机安装 MindIE
  - 容器化安装
  - 升级
  - 卸载
  - 常见问题与附录
    常见问题与附录
    
    软件包参数说明
    
    密码复杂度要求
    
    设置用户有效期
    
    启动 haveged 服务
    
    curl 命令报错
    
    libboost 线程报错
  - 安全管理与加固
    安全管理与加固
    
    安全管理
    
    安全加固须知
    
    信息泄露风险提醒
    
    服务器安全加固
    服务器安全加固
    
    Server 安全加固
    
    目录权限安全加固
    
    缓冲区溢出安全保护
    
    使用 Linux ASLR 和 KASLR
    
    设置 umask
    
    无属主文件安全加固
    
    禁止无属主文件
    
    确保 root 唯一性和 UID 唯一性
    
    禁止 SetUID/SetGID shell 脚本
    
    禁止高危 capability 可执行文件
    
    禁止 root 远程访问
    
    Python 安全加固
    
    安装 systemd-coredump
    
    Docker 与容器安全
    Docker 与容器安全
    
    Docker 守护进程安全加固
    
    Docker 容器运行安全加固
    
    Kubernetes 安全加固
    
    启用 Docker 审计
    
    启用 live-restore
    
    Docker 配置文件权限
    
    为 Docker 创建单独分区
    
    镜像漏洞
    
    网络与访问控制
    网络与访问控制
    
    防火墙设置
    
    端口扫描
    
    防 DoS 攻击
    
    TCP 远程访问 TLS 认证
    
    关闭 Device SSH 服务
    
    开启白名单校验
    
    其他安全加固
- 示例
- 模型支持列表
- 模型部署
  模型部署
  - DeepSeek-V3.2
- 优化与调优
- 使用手册
  使用手册
- 特性
  特性
  - 量化
    量化
    
    W8A8
    
    W8A16
    
    W16A16SC
    
    W8A8SC
    
    W4A8 混合精度量化
    
    FA3 量化
    
    Anti-Outlier 离群值抑制
    
    Attention 量化
    
    PDMix 量化
    
    KV Cache INT8
  - 并行
    并行
    
    张量并行
    
    数据并行
    
    专家并行
    
    上下文并行
    
    序列并行
  - 调度
    调度
    
    异步调度
    
    SplitFuse
    
    并行解码
    
    SLO 感知调度优化
    
    负载均衡
  - 解析
    解析
    
    Prefix Cache
    
    KV Cache 池化
    
    MemPool
    
    离线权重切分
  - 模型特性
    模型特性
    
    MoE
    
    MLA
    
    MTP
    
    Function Call
    
    长序列
    
    推理开关
    
    共享专家外置
    
    Micro Batch
    
    Multi-LoRA
    
    思维推理功能流
    
    结构化输出
    
    思考预算
开发者指南
开发者指南
- 架构概览
- 架构设计
  架构设计
  - MTP
- 设计文档
  设计文档
  - MicroBatch
  - MultiLora
  - MoE
  - RoPEFactory
- 编译安装
- 本地构建 MkDocs 文档
- 测试
- 迁移适配
  迁移适配
  - ACLGraph 迁移
  - 多模态理解迁移
常见问题

目录

核心能力
架构概览
相关链接

欢迎使用 MindIE-LLM¶

MindIE-LLM

MindIE LLM（Mind Inference Engine Large Language Model）是 MindIE 下的大语言模型推理组件，基于昇腾硬件提供业界通用大模型推理能力，同时提供多并发请求的调度功能。

根据你的使用场景选择入口：

使用 MindIE LLM 运行模型推理，推荐从快速入门开始
安装部署 MindIE LLM，推荐从安装指南开始
进行服务化部署和参数调优，推荐从使用手册开始
了解支持的模型和特性，推荐从模型支持列表和特性总览开始
参与模型迁移适配与特性开发，推荐从开发指南开始

核心能力¶

MindIE LLM 具备高性能推理能力：

高吞吐服务化推理，支持 Continuous Batching 和 PagedAttention
高效的注意力 KV Cache 显存管理
多种量化支持：W8A8、W8A16、W4A8 混合精度、FA3 量化、KV Cache INT8 等
多维并行策略：张量并行、数据并行、专家并行、上下文并行、序列并行
Prefill/Decode 混合部署与 KV Cache 池化
SplitFuse 分块调度、异步调度、并行解码降低时延

MindIE LLM 灵活易用：

Docker 镜像一键部署，开箱即用
支持主流开源大语言模型
兼容 OpenAI / Triton / TGI / vLLM 等推理框架请求接口
MoE、MLA、MTP、Function Call、Multi-LoRA 等丰富模型特性
完善的参数配置和环境变量体系

架构概览¶

MindIE LLM 总体架构分为四层：

Server：推理服务端，提供 RESTful 接口，支持 Triton/OpenAI/TGI/vLLM 主流推理框架请求接口
LLM Manager：负责状态管理及任务调度，基于调度策略实现请求组 batch，统一内存池管理 KV Cache
Text Generator：负责模型配置、初始化、加载、自回归推理流程、后处理
Modeling：提供性能调优后的模块和内置模型，支持 ATB Models

详见架构概览。

相关链接¶

昇腾社区
MindIE 镜像仓库

2026年4月24日 2025年12月22日

Made with Material for MkDocs