Instella - 3B开源语言模型家族，超越同规模模型，免费畅享高性能语言交互

首页

Instella 3B

由 amd 开发

AMD基于Instinct MI300X GPU训练的30亿参数全开放语言模型家族，性能超越同规模开放模型

大型语言模型

Transformers

开源协议:其他 #全开放模型 #高性能语言理解 #多轮对话优化

下载量 3,048

发布时间 : 3/5/2025

模型简介

Instella是由AMD开发的完全开源语言模型系列，包含预训练、监督微调和DPO对齐版本，支持4096 tokens上下文长度

模型特点

全开放模型

完整公开模型权重、训练配置和数据集，促进社区协作

高性能

超越同规模全开放模型，接近开放权重模型性能

AMD硬件优化

基于Instinct MI300X GPU和ROCm软件栈专门优化

四阶段训练

包含预训练、增强训练、监督微调和DPO对齐的完整训练流程

模型能力

文本生成

指令跟随

问题解答

对话交互

知识推理

使用案例

智能助手

对话系统

构建能理解复杂指令的对话AI

在Alpaca评估中表现优异

教育研究

AI教学助手

解答学科问题并提供分步解释

在MMLU综合评估达到57.81分

🚀 Instella✨：具备卓越性能的完全开源语言模型

AMD 欣然宣布推出 Instella，这是一系列完全开源的、拥有 30 亿参数的最先进语言模型（LM），它们在 AMD Instinct™ MI300X GPU 上从头开始训练而成。Instella 模型的性能超越了现有的同等规模的完全开源模型，并且与 Llama - 3.2 - 3B、Gemma - 2 - 2B 和 Qwen - 2.5 - 3B 等最先进的开放权重模型（包括它们经过指令调优的版本）相比，也展现出了具有竞争力的表现。

图 1：预训练和指令调优模型的预训练令牌与平均性能的帕累托前沿。

通过在 Instinct MI300X GPU 上从头开始训练 Instella，我们展示了我们硬件在处理复杂的大规模 AI 训练工作负载方面的能力和可扩展性，为 AI 硬件领域提供了一个可行的选择。秉承 AMD 对开源的承诺，我们将在此处发布与 Instella 模型相关的所有资源，包括模型权重、详细的训练配置、数据集和代码，以促进 AI 社区的协作、复现和创新，从而加速技术进步。

要点总结

推出 Instella：这是 AMD 开发的一系列 30 亿参数的语言模型，在 128 个 Instinct MI300X GPU 上从头开始训练。
性能卓越：Instella 模型在可比规模的现有完全开源语言模型中表现显著更优（图 1），并且通过实现与最先进的开放权重模型及其指令调优版本相竞争的性能，缩小了完全开源模型与开放权重模型之间的差距。
完全开放且可访问：模型权重、训练超参数、数据集和代码完全开源发布，促进了 AI 社区的创新和协作。
高效训练技术支持：在 AMD ROCm 软件栈的支持下，Instella 采用了诸如 FlashAttention - 2、Torch Compile 和具有混合分片的完全分片数据并行（FSDP）等高效训练技术，以在大型集群上扩展模型训练。

📦 Instella 模型

在本次发布中，我们推出了以下 Instella 模型：

模型	阶段	训练数据（令牌）	描述
[Instella - 3B - Stage1](https://huggingface.co/amd/Instella - 3B - Stage1)	预训练（阶段 1）	4.065 万亿	第一阶段预训练，以培养自然语言理解能力。
[Instella - 3B](https://huggingface.co/amd/Instella - 3B)	预训练（阶段 2）	575.75 亿	第二阶段预训练，以进一步增强问题解决能力。
[Instella - 3B - SFT](https://huggingface.co/amd/Instella - 3B - SFT)	监督微调（SFT）	89.02 亿（3 个周期）	监督微调，以实现指令跟随能力。
[Instella - 3B - Instruct](https://huggingface.co/amd/Instella - 3B - instruct)	直接偏好优化（DPO）	7.6 亿	通过直接偏好优化与人类偏好对齐，并加强聊天能力。
	总计：	4.15 万亿

表 1：Instella 模型和训练阶段。

Instella 模型是基于自回归变压器架构的纯文本语言模型，拥有 30 亿参数。从架构上看，Instella 包含 36 个解码器层，每层有 32 个注意力头。这些模型支持最长 4096 个令牌的序列长度，并使用 OLMo 分词器，词汇量约为 50000 个令牌。在预训练和微调过程中，我们使用了 FlashAttention - 2、Torch Compile 和 bfloat16 混合精度训练，以减少内存使用，提高计算速度并优化资源利用。为了平衡集群内节点间的内存效率和节点内的通信开销，我们采用了具有混合分片的完全分片数据并行（FSDP），将模型参数、梯度和优化器状态在节点内分片，并在节点间复制。

我们的训练管道基于开源的 OLMo 代码库，并针对我们的硬件和模型架构进行了调整和优化。在预训练阶段，我们总共使用了 128 个 Instinct MI300X GPU，分布在 16 个节点上，每个节点配备 8 个 Instinct MI300X GPU。我们使用来自 OLMES、[FastChat MT - Bench](https://github.com/lm - sys/FastChat/blob/main/fastchat/llm_judge/README.md) 和 [Alpaca](https://github.com/tatsu - lab/alpaca_eval/tree/main) 的标准任务对我们的模型和基线进行了评估。有关架构、训练管道/超参数和评估结果的更多详细信息，请参考我们的 [博客](https://rocm.blogs.amd.com/artificial - intelligence/introducing - instella - 3B/README.html)、[Hugging Face 模型卡片](https://huggingface.co/amd/Instella - 3B) 和 [Github 仓库](https://github.com/AMD - AIG - AIMA/Instella)。

🔧 训练管道

Instella 模型的训练包括四个阶段，每个阶段逐步增强模型的能力，从基本的自然语言理解到指令跟随，再到与人类偏好对齐。

模型概述

阶段	模型	训练令牌	层数	注意力头	模型隐藏大小	MLP 隐藏大小	上下文长度	RoPE Theta
预训练	Instella - 3B - stage1	4.065T	36	32	2560	13824	4096	10000
预训练	Instella - 3B	57.575B	36	32	2560	13824	4096	10000
监督微调（SFT）	Instella - 3B - SFT	8.902B（x3）	36	32	2560	13824	4096	10000
直接偏好优化（DPO）	Instella - 3B - instruct	760M	36	32	2560	13824	4096	10000

超参数

阶段	优化器	峰值学习率	学习率调度器	Alpha F	预热（步数）	权重衰减	衰减范数和偏差	衰减嵌入	批量大小（令牌）	周期数
预训练阶段 1	AdamW(0.9, 0.95)	4.0e - 4	cosine_with_warmup	0.1	2000	0.1	是	是	4M	1
预训练阶段 2	AdamW(0.9, 0.95)	4.0e - 5	cosine_with_warmup	0.0	0	0.1	是	是	4M	1
监督微调（SFT）	AdamW(0.9, 0.95)	1.0e - 5	linear_with_warmup	0.001	500	0.1	是	是	0.5M	3
直接偏好优化（DPO）	AdamW(0.9, 0.95)	5.0e - 7	linear	--	10%	0.1	--	--	0.25M	1

🚀 快速开始

📦 安装指南

首先，根据你操作系统的具体说明安装 PyTorch。对于 AMD GPU，你也可以从 [rocm/pytorch](https://hub.docker.com/r/rocm/pytorch/tags?name = pytorch) Docker 镜像开始。

要从源代码安装（推荐用于训练/微调），请运行以下命令：

git clone https://github.com/AMD-AIG-AIMA/Instella.git
cd Instella
# 在 MI300X 上安装 Flash - Attention
GPU_ARCH=gfx942 MAX_JOBS=$(nproc) pip install git+https://github.com/Dao-AILab/flash-attention.git -v
# 安装其他依赖项
pip install -e .[all]

💻 使用示例

from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "amd/Instella-3B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(checkpoint, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", trust_remote_code=True)

prompt = [{"role": "user", "content": "What are the benefits of open-source AI research?"}]
inputs = tokenizer.apply_chat_template(
    prompt,
    add_generation_prompt=True,
    return_tensors='pt'
)

tokens = model.generate(
    inputs.to(model.device),
    max_new_tokens=1024,
    temperature=0.8,
    do_sample=True
)

print(tokenizer.decode(tokens[0], skip_special_tokens=False))

在 TRL 中进行聊天

你还可以使用 TRL CLI 在终端中与模型进行聊天：

pip install trl
trl chat --model_name_or_path amd/Instella-3B-Instruct --trust_remote_code --max_new_tokens 1024

# <root>:
# which is bigger 9.8 or 9.11?

# <amd/Instella-3B-Instruct>:
# 9.8 is bigger than 9.11. The difference between the two numbers is 0.69 (9.8 - 9.11 = 0.69), which indicates that 9.8 is 0.69 units larger than 9.11.

📊 结果

预训练

模型	大小	训练令牌	平均	ARC 挑战	ARC 简单	BoolQ	Hellaswag	PiQA	SciQ	Winnograde	OpenBookQA	MMLU	BBH（3 - 样本）	GSM8k（8 - 样本）
开放权重模型
Gemma - 2 - 2B	2.61B	~2T	59.34	39.46	59.30	74.50	70.50	76.40	96.60	69.80	44.80	53.28	40.75	27.37
Llama - 3.2 - 3B	3.21B	~9T	62.51	47.16	64.91	74.80	73.10	75.90	95.30	70.30	51.20	57.81	47.00	30.10
Qwen2.5 - 3B	3.09B	~18T	68.30	51.51	67.19	79.10	72.10	77.40	95.50	69.30	51.40	67.22	56.69	63.84
完全开源模型
Pythia - 2.8b	2.91B	300B	49.83	40.47	60.70	64.80	60.10	72.50	89.70	60.80	42.60	26.09	27.69	2.73
GPTNeo - 2.7B	2.72B	~420B	47.96	38.46	54.56	62.70	55.20	70.80	88.00	58.30	40.80	27.83	27.25	3.71
OpenELM - 3B	3.04B	~1.5T	52.28	37.46	58.42	68.60	71.70	75.60	92.50	65.40	46.40	26.69	29.40	2.96
StableLM - 3B - 4E1T	2.8B	~4T	58.51	44.82	67.02	75.40	74.20	78.40	93.40	68.40	48.60	45.19	37.33	10.84
Instella - 3B - Stage1	3.11B	~4T	61.33	53.85	73.16	78.70	74.20	77.50	94.90	71.20	51.40	54.69	34.30	10.77
Instella - 3B	3.11B	~4T + 60B	66.59	52.84	70.53	76.50	75.00	77.80	96.40	73.10	52.40	58.31	39.74	59.82

表 2：预训练模型在标准基准测试中的性能。这里粗体表示最佳性能，下划线表示第二佳性能。

性能超越：Instella - 3B - Stage1 和 Instella - 3B 模型在所有基准测试中（除了 PIQA）均显著优于其他完全开源模型。我们最终的预训练检查点 Instella - 3B 在平均性能上比现有的表现最佳的完全开源预训练模型高出 ⬆️8.08%，在 ARC 挑战 [+8.02%]、ARC 简单 [+3.51%]、Winnograde [+4.7%]、OpenBookQA [+3.88%]、MMLU [+13.12%] 和 ️GSM8K [+48.98%] 等方面有显著提升。
第二阶段预训练提升显著：第二阶段预训练使整体平均性能相对于第一阶段提高了 ⬆️5.26%，大幅缩小了 Instella - 3B 模型与闭源模型之间的性能差距，并且 在平均性能上比 Llama - 3.2 - 3B 高出 ⬆️4.08%（ARC 挑战 [+5.69%]、ARC 简单 [+5.61%] 和 GSM8k [+29.72%]），比 Gemma - 2 - 2B 高出 ⬆️7.25%（ARC 挑战 [+13.38%]、ARC 简单 [+11.23%]、Hellaswag [+4.5%]、OpenBookQA [+7.6%]、MMLU [+5.03%] 和 GSM8k [+32.45%]），并且在大多数基准测试中与 Qwen - 2.5 - 3B 具有竞争力。
多阶段预训练效果显著：使用多样化和高质量的数据混合进行多阶段预训练显著增强了 Instella - 3B 的能力，使其成为同等规模语言模型领域中一个具有竞争力的开源替代方案。

指令调优结果

模型	大小	训练令牌	平均	MMLU	TruthfulQA	BBH	GPQA	GSM8K	Minerva MATH	IFEval	AlpacaEval 2	MT - Bench
开放权重模型
Gemma - 2 - 2B - Instruct	2.61B	~2T	39.04	58.35	55.76	42.96	25.22	53.45	22.48	55.64	29.41	8.07
Llama - 3.2 - 3B - Instruct	3.21B	~9T	47.53	61.50	50.23	61.50	29.69	77.03	46.00	75.42	19.31	7.13
Qwen2.5 - 3B - Instruct	3.09B	~18T	48.72	66.90	57.16	57.29	28.13	75.97	60.42	62.48	22.12	8.00
完全开源模型
StableLM - zephyr - 3B	2.8B	4T	30.50	45.10	47.90	39.32	25.67	58.38	10.38	34.20	7.51	6.04
OpenELM - 3B - Instruct	3.04B	~1.5T	14.11	27.36	38.08	24.24	18.08	1.59	0.38	16.08	0.21	1.00
Instella - 3B - SFT	3.11B	~4T	42.05	58.76	52.49	46.00	28.13	71.72	40.50	66.17	7.58	7.07
Instella - 3B - Instruct	3.11B	~4T	44.87	58.90	55.47	46.75	30.13	73.92	42.46	71.35	17.59	7.23

表 2：指令调优模型在标准基准测试中的性能。这里粗体表示最佳性能，下划线表示第二佳性能。

显著超越其他完全开源模型：Instella - 3B - Instruct 模型在所有评估基准测试中始终显著优于其他完全开源模型，平均得分比下一个表现最佳的完全开源指令调优模型高出 ⬆️14.37%。在所有聊天基准测试中都有显著优势（MMLU [+13%]、TruthfulQA [7.57%]、BBH [7.43%]、GPQA [+4.46%]、IFEval [+37.15]、Alpaca 2 [10.08%] 和 MT - Bench [1.2%]）。
缩小与领先开放权重模型的差距：Instella - 3B - Instruct 缩小了与领先开放权重模型的性能差距。Instella - 3B - Instruct 与现有的最先进的开放权重指令调优模型表现相当或略有超越，例如 Llama - 3.2 - 3B - Instruct（TruthfulQA [+5.24%]、GPQA [0.45%] 和 MT - Bench [+0.1%]）和 Qwen2.5 - 3B - Instruct（GPQA [+2.01%] 和 IFEval [+8.87%]），同时在平均得分上比 Gemma - 2 - 2B - Instruct 高出 ⬆️5.83%（MMLU [+0.55%]、BBH [+3.79]、GPQA [+4.91]、GSM8k [+20.47]、Minerva MATH [+19.98] 和 IFEval [+15.17%]）。
在指令跟随和多轮问答任务中表现出色：总体而言，Instella - 3B - Instruct 在指令跟随任务和多轮问答任务（如 TruthfulQA、GPQA、IFEval 和 MT - Bench）中表现出色，并且在其他知识回忆和数学基准测试中与现有的最先进开放权重模型相比具有很强的竞争力，同时其训练所需的令牌数量显著更少。

📚 训练数据

阶段	模型	数据集	许可证
预训练阶段 1	Instella - 3B - stage1	[https://huggingface.co/datasets/allenai/OLMoE - mix - 0924](https://huggingface.co/datasets/allenai/OLMoE - mix - 0924)	ODC - BY - 1.0
预训练阶段 2	Instella - 3B	[https://huggingface.co/datasets/allenai/tulu - 3 - sft - mixture](https://huggingface.co/datasets/allenai/tulu - 3 - sft - mixture)	ODC - BY - 1.0
预训练阶段 2	Instella - 3B	[https://huggingface.co/datasets/allenai/dolmino - mix - 1124](https://huggingface.co/datasets/allenai/dolmino - mix - 1124)	ODC - BY - 1.0
预训练阶段 2	Instella - 3B	[https://huggingface.co/datasets/teknium/OpenHermes - 2.5](https://huggingface.co/datasets/teknium/OpenHermes - 2.5)	参考源材料
预训练阶段 2	Instella - 3B	[https://huggingface.co/datasets/TIGER - Lab/WebinstructSub](https://huggingface.co/datasets/TIGER - Lab/WebinstructSub)	Apache - 2.0
预训练阶段 2	Instella - 3B	[https://huggingface.co/datasets/m - a - p/Code - Feedback](https://huggingface.co/datasets/m - a - p/Code - Feedback)	Apache - 2.0
预训练阶段 2	Instella - 3B	https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k	MIT
预训练阶段 2	Instella - 3B	[https://huggingface.co/datasets/HuggingFaceTB/smollm - corpus/viewer/python - edu](https://huggingface.co/datasets/HuggingFaceTB/smollm - corpus/viewer/python - edu)	ODC - BY - 1.0
预训练阶段 2	Instella - 3B	[https://github.com/google - deepmind/mathematics_dataset](https://github.com/google - deepmind/mathematics_dataset)	Apache - 2.0
预训练阶段 2	Instella - 3B	[https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic)	[许可证](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic/blob/main/LICENSE)
监督微调（SFT）	Instella - 3B - SFT	[https://huggingface.co/datasets/nvidia/OpenMathinstruct - 2](https://huggingface.co/datasets/nvidia/OpenMathinstruct - 2)	CC - BY - 4.0
监督微调（SFT）	Instella - 3B - SFT	https://huggingface.co/datasets/cais/mmlu	MIT
监督微调（SFT）	Instella - 3B - SFT	https://huggingface.co/datasets/HuggingFaceTB/smoltalk	Apache - 2.0
监督微调（SFT）	Instella - 3B - SFT	[https://huggingface.co/datasets/GAIR/o1 - journey](https://huggingface.co/datasets/GAIR/o1 - journey)	参考源材料
监督微调（SFT）	Instella - 3B - SFT	[https://huggingface.co/datasets/allenai/tulu - 3 - sft - personas - instruction - following (Tulu3 的子集)](https://huggingface.co/datasets/allenai/tulu - 3 - sft - personas - instruction - following)	ODC - BY - 1.0
直接偏好优化（DPO）	Instella - 3B - instruct	[https://huggingface.co/datasets/allenai/olmo - 2 - 1124 - 7b - preference - mix](https://huggingface.co/datasets/allenai/olmo - 2 - 1124 - 7b - preference - mix)	ODC - BY - 1.0

⚠️ 重要提示

有关训练数据集的更多信息，包括适用的许可条款和使用限制，可在链接的源位置找到。

📝 总结

Instella 系列模型的发布是推进开源 AI 和展示 AMD 硬件在大规模语言模型训练方面能力的重要一步。Instella 系列的 30 亿参数模型在关键基准测试中显著优于现有的完全开源的同等规模模型，并且与同等的开放权重模型具有竞争力，我们将其归功于高质量的数据混合选择、多阶段训练管道以及使用高性能的 Instinct MI300X GPU 进行大规模训练。

通过将 Instella 模型完全开源，包括权重、训练配置、数据集和代码，我们旨在促进 AI 社区的创新和协作。我们相信，透明度、可复现性和可访问性是 AI 研究和开发进步的关键驱动力。我们邀请开发者、研究人员和 AI 爱好者探索 Instella，为其持续改进做出贡献，并与我们一起突破语言模型的可能性边界。

我们将继续在多个维度上增强模型，包括上下文长度、推理能力和多模态能力。此外，我们将扩大模型和数据集的规模，同时探索不同的架构方法。请关注有关 Instella 语言模型系列、其功能和能力的更多精彩博客！

📚 额外资源

Hugging Face 模型卡片

预训练模型：
- Instella - 3B - Stage1：[amd/Instella - 3B - Stage1](https://huggingface.co/amd/Instella - 3B - Stage1)，第一阶段预训练检查点。
- Instella - 3B：[amd/Instella - 3B](https://huggingface.co/amd/Instella - 3B)，最终预训练检查点。
指令调优模型：
- Instella - 3B - SFT：[amd/Instella - 3B - SFT](https://huggingface.co/amd/Instella - 3B - SFT)，监督微调检查点。
- Instella - 3B - Instruct：[amd/Instella - 3B - Instruct](https://huggingface.co/amd/Instella - 3B - Instruct)，最终指令调优检查点。

数据集

第二阶段预训练的 GSM8k 合成数据集：[amd/Instella - GSM8K - synthetic](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic)

该数据集由两个分割组成：train 和 train_119K。
对于 Instella - 3B 模型的第二阶段预训练，我们使用了 train_119K 分割，它是较大的 train 分割的一个子集。

代码

Github：[https://github.com/AMD - AIG - AIMA/Instella](https://github.com/AMD - AIG - AIMA/Instella)

请参考以下博客，以了解如何在 AMD GPU 上使用这些技术：

[使用 ROCm™ 在 AMD GPU 上进行 PyTorch 完全分片数据并行（FSDP）训练](https://rocm.blogs.amd.com/artificial - intelligence/fsdp - training - pytorch/README.html)
[在 AMD GPU 上使用 Flash Attention 加速大语言模型](https://rocm.blogs.amd.com/artificial - intelligence/flash - attention/README.html)
[使用 ROCm™ 在 AMD GPU 上通过 torch.compile 加速 PyTorch 模型](https://rocm.blogs.amd.com/artificial - intelligence/torch_compile/README.html)
[推出首款 AMD 10 亿参数语言模型：AMD OLMo](https://www.amd.com/en/developer/resources/technical - articles/introducing - the - first - amd - 1b - language - model.html)

⚠️ 偏差、风险和限制

研究用途：这些模型仅用于研究目的，不适用于需要高度事实准确性、安全关键情况、健康或医疗应用、生成虚假信息或促进有害对话的用例。
无安全保证：模型检查点的提供没有任何安全承诺。用户必须根据各自的用例进行全面评估，并实施安全过滤机制。
可能生成不良内容：可能会通过提示使模型生成事实不准确、有害、暴力、有毒、有偏见或其他令人反感的内容。即使提示并非有意产生此类输出，也可能会生成此类内容。因此，建议用户在使用模型时保持警惕，并进行负责任的思考。
多语言能力未测试：模型的多语言能力尚未经过测试，因此可能会误解不同语言的输入并生成错误的响应。

📄 许可证

Instella - 3B 模型根据 ResearchRAIL 许可证获得学术和研究用途许可。
用于第二阶段预训练的 [amd/Instella - GSM8K - synthetic](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic) 数据集是使用 Qwen2.5 - 72B - Instruct 构建的，并根据 ResearchRAIL 许可证获得学术和研究用途许可。有关更多信息，请参考 [许可证](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic/blob/main/LICENSE) 和 [通知](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic/blob/main/NOTICES) 文件。
有关更多信息，请参考 [许可证](https://huggingface.co/amd/Instella - 3B/blob/main/LICENSE) 和 [通知](https://huggingface.co/amd/Instella - 3B/blob/main/NOTICES) 文件。

📖 引用

如果你想引用我们的 Instella - 3B 模型，请使用以下 BibTeX 格式：

@misc{Instella,
    title = {Instella: Fully Open Language Models with Stellar Performance},
    url = {https://huggingface.co/amd/Instella-3B},
    author = {Jiang Liu, Jialian Wu, Xiaodong Yu, Prakamya Mishra, Sudhanshu Ranjan, Zicheng Liu, Chaitanya Manem, Yusheng Su, Pratik Prabhanjan Brahma, Gowtham Ramesh, Ximeng Sun, Ze Wang, Emad Barsoum},
    month = {March},
    year = {2025}
}