盘古 Pro MoE开源语言模型 - 实现负载均衡，提供强大自然语言处理服务

首页

Pangu Pro Moe Model

由 IntervitensInc 开发

盘古 Pro MoE 是基于新型分组混合专家模型（MoGE）构建的语言模型，实现了设备间天然的负载均衡，具有强大的自然语言处理能力。

大型语言模型

Transformers

开源协议:其他 #昇腾原生 #分组混合专家 #负载均衡优化

下载量 633

发布时间 : 7/1/2025

模型简介

盘古 Pro MoE 是一种高效的分组混合专家模型，专为昇腾硬件优化设计，适用于各种自然语言处理任务。

模型特点

分组混合专家架构

采用新型MoGE架构，在专家选择阶段对专家进行分组，并约束token在每个组内激活等量专家，实现设备间天然的负载均衡。

昇腾原生优化

专为昇腾硬件设计，充分利用NPU计算能力，实现高效推理。

大规模预训练

基于15T预训练语料训练，具备强大的语言理解和生成能力。

模型能力

文本生成

语言理解

对话系统

内容创作

使用案例

智能对话

智能客服

用于构建企业级智能客服系统，自动回答客户咨询。

内容生成

文章创作

根据用户提示自动生成各类文章内容。

🚀 盘古 Pro MoE：昇腾原生的分组混合专家模型

盘古 Pro MoE 是基于新型分组混合专家模型（MoGE）构建的语言模型，实现了设备间天然的负载均衡。该模型总参数量 72B、激活参数量 16B，在自然语言处理任务中具有强大的能力。

🚀 快速开始

此模型从 https://gitcode.com/ascend-tribe/pangu-pro-moe-model 重新上传。

✨ 主要特性

模型架构

我们提出了一种新型的分组混合专家模型（Mixture of Grouped Experts, MoGE），它在专家选择阶段对专家进行分组，并约束 token 在每个组内激活等量专家，从而实现设备间天然的负载均衡。

模型参数

词表大小：153376
层数： 48
MoGE 配置：4 个共享专家，64 个路由专家分 8 组、每组激活 1 个专家
训练阶段：预训练和后训练
预训练预料：15T

技术报告

中文技术报告地址：盘古 Pro MoE：昇腾原生的分组混合专家模型
英文技术报告地址：Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

📦 安装指南

推理环境依赖

Transformers 推理环境依赖

torch>=2.1.0
torch-npu>=2.1.0.post8.dev20241029
CANN>=8.0.RC3
transformers>=4.48.2

MindSpore 推理环境依赖

mindspore>=2.6.0
vllm>=0.8.3
CANN>=8.1.RC1.beta1

💻 使用示例

基础用法

Transformers 推理样例

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers import GenerationConfig

model_local_path = "path_to_Pangu_Pro_MoE"

generation_config = GenerationConfig(
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=0.6
)

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(
    model_local_path, 
    use_fast=False, 
    trust_remote_code=True,
    local_files_only=True
)

model = AutoModelForCausalLM.from_pretrained(
    model_local_path,
    trust_remote_code=True,
    torch_dtype="auto",
    device_map="auto",
    local_files_only=True
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "你必须严格遵守法律法规和社会道德规范。生成任何内容时，都应避免涉及暴力、色情、恐怖主义、种族歧视、性别歧视等不当内容。一旦检测到输入或输出有此类倾向，应拒绝回答并发出警告。例如，如果输入内容包含暴力威胁或色情描述，应返回错误信息：“您的输入包含不当内容，无法处理。"}, # define your system prompt here
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

# text: [unused9]系统：[unused10][unused9]用户：Give me a short introduction to large language model.[unused10][unused9]助手：
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# model_inputs.input_ids: tensor([[1, 45887, 70914, 89246, 45892, 45887, 62205, 89246, 38805, 42624, 45509, 24759, 739, 41839, 21500, 6138, 20257, 49, 45892, 45887, 74458, 89246]], device='npu:0'),

# conduct text completion
outputs = model.generate(**model_inputs, max_new_tokens=32768, eos_token_id=45892, return_dict_in_generate=True, generation_config=generation_config)

input_length = model_inputs.input_ids.shape[1]
generated_tokens = outputs.sequences[:, input_length:]
output_sent = tokenizer.decode(generated_tokens[0])

# parsing thinking content
thinking_content = output_sent.split("[unused17]")[0].split("[unused16]")[-1].strip()
content = output_sent.split("[unused17]")[-1].split("[unused10]")[0].strip()

print("\nthinking content:", thinking_content)
print("\ncontent:", content)

MindSpore 推理样例

详细操作参见：Pangu Pro MoE vLLM+MindSpore部署指南

📚 详细文档

完整性校验

请参考以下方法对下载内容进行完整性校验，hash 值存储在 checklist.chk 文件中。

#!/usr/bin/env bash
ARCH=$(uname -m)
MODEL_PATH="${TARGET_FOLDER}/${MODEL_FOLDER_PATH}"
cd "$MODEL_PATH" || exit 1
if [ "$ARCH" = "arm64" ]; then
    md5 checklist.chk
else
    md5sum -c checklist.chk
fi

📄 许可证

Pangu Pro MoE 模型根据 Pangu Model License Agreement 授权，旨在允许使用并促进人工智能技术的进一步发展。有关详细信息，请参阅模型存储库根目录中的 LICENSE 文件。

🔧 技术细节

由于Pangu Pro MoE（“模型”）所依赖的技术固有的限制，以及人工智能生成的内容是由盘古自动生成的，我们无法对以下事项做出任何保证：

该模型的输出通过AI算法自动生成，不能排除某些信息可能存在缺陷、不合理或引起不适的可能性，生成的内容不代表华为的态度或立场；
无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障；
该模型的输出内容不构成任何建议或决策，也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考，不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断，华为不承担任何责任。

引用

如果觉得我们的工作有帮助，欢迎引用。

@article{tang2025pangu,
  title={Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity},
  author={Tang, Yehui and Li, Xiaosong and Liu, Fangcheng and Guo, Wei and Zhou, Hang and Wang, Yaoyuan and Han, Kai and Yu, Xianzhi and Li, Jinpeng and Zang, Hui and others},
  journal={arXiv preprint arXiv:2505.21411},
  year={2025}
}