xgen-small-9B-instruct-r开源语言模型 - 企业级低成本实现长上下文性能

首页

Xgen Small 9B Instruct R

由 Salesforce 开发

xGen-small是一款企业级紧凑型语言模型，通过领域聚焦的数据整理、可扩展的预训练、长度扩展和强化学习微调，以可预测的低成本实现长上下文性能表现。

大型语言模型

Transformers

英语#128k长上下文 #企业级小模型 #强化学习微调

下载量 97

发布时间 : 5/9/2025

模型简介

xGen-small是一款专注于企业应用的小型语言模型，通过优化的训练流程和强化学习微调，在保持较小参数规模的同时实现了长上下文处理能力。

模型特点

长上下文处理

支持128k tokens的长上下文处理能力

企业级优化

专为企业应用场景设计，平衡性能与成本

强化学习微调

通过强化学习进行指令微调，提升对话和指令跟随能力

模型能力

长文本理解

对话生成

问答系统

数学推理

编程辅助

使用案例

企业应用

客户服务对话系统

用于构建企业级客户服务对话机器人

在对话评估中表现优异

技术文档分析

处理和分析长技术文档

得益于128k上下文长度支持

教育与研究

数学问题解答

解决复杂的数学和科学问题

在GSM8K和MATH等数学基准测试中表现优异

🚀 xGen-small家族欢迎您！

xGen-small (博客, arXiv) 是一款适用于企业的紧凑型大语言模型，它结合了领域聚焦的数据筛选、可扩展的预训练、长度扩展和强化学习微调等技术，能够以可预测的低成本实现长上下文处理能力。 本次模型发布仅用于研究目的。

✨ 主要特性

模型系列

xGen-small 有两种规模（40亿和90亿参数）和两种变体（预训练和后训练）：

模型	总参数数量	上下文长度	变体	下载链接
salesforce/xgen-small-4B-base-r	40亿	128k	预训练	🤖 链接
salesforce/xgen-small-4B-instruct-r	40亿	128k	后训练	🤖 链接
salesforce/xgen-small-9B-base-r	90亿	128k	预训练	🤖 链接
salesforce/xgen-small-9B-instruct-r	90亿	128k	后训练	🤖 链接

💻 使用示例

基础用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Salesforce/xgen-small-9B-instruct-r"
tokenizer = AutoTokenizer.from_pretrained(model_name)
device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto"
).to(device)

prompt = "What is Salesforce?"
messages = [{"role": "user", "content": prompt}]
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

generated = model.generate(inputs, max_new_tokens=128)
output = tokenizer.decode(
    generated[0],
    skip_special_tokens=True,
)
print(output)

🔧 技术细节

评估结果

类别	任务	Llama 3.1-8B	Granite 3.3-8B	Qwen2.5-7B	xGen-small 9B Instruct
常识与推理	MMLU	68.3	62.7	72.4	72.4
常识与推理	MMLU-Pro	43.2	43.5	56.7	57.3
对话	Arena-Hard-v1.0	28.9	30.5	48.1	60.1
对话	MT-Bench	8.25	8.57	8.56	8.90
数学与科学	GPQA	31.9	35.3	32.6	45.8
数学与科学	GSM8K	84.2	89.4	91.9	95.3
数学与科学	MATH	48.9	70.9	74.6	91.6
数学与科学	AIME 2024	6.7	10.0	6.7	50.0
编程	HumanEval+	61.6	65.9	74.4	78.7
编程	MBPP+	55.3	60.3	68.8	63.8
编程	LiveCodeBench	10.3	10.3	12.1	50.6

引用信息

@misc{xgensmall,
      title={xGen-small Technical Report}, 
      author={Erik Nijkamp and Bo Pang and Egor Pakhomov and Akash Gokul and Jin Qu and Silvio Savarese and Yingbo Zhou and Caiming Xiong},
      year={2025},
      eprint={2505.06496},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.06496}, 
}

📄 许可证

⚠️ 重要提示

本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游应用而设计或评估。我们强烈建议用户在部署此模型之前，评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在高风险场景中，错误或滥用可能会对人们的生活、权利或安全产生重大影响。有关用例的更多指导，请参考我们的使用协议和人工智能使用协议。