Instella - 3B開源語言模型家族，超越同規模模型，免費暢享高性能語言交互

首頁

Instella 3B

由amd開發

AMD基於Instinct MI300X GPU訓練的30億參數全開放語言模型家族，性能超越同規模開放模型

大型語言模型

Transformers

開源協議:其他 #全開放模型 #高性能語言理解 #多輪對話優化

下載量 3,048

發布時間 : 3/5/2025

模型概述

Instella是由AMD開發的完全開源語言模型系列，包含預訓練、監督微調和DPO對齊版本，支持4096 tokens上下文長度

模型特點

全開放模型

完整公開模型權重、訓練配置和數據集，促進社區協作

高性能

超越同規模全開放模型，接近開放權重模型性能

AMD硬件優化

基於Instinct MI300X GPU和ROCm軟件棧專門優化

四階段訓練

包含預訓練、增強訓練、監督微調和DPO對齊的完整訓練流程

模型能力

文本生成

指令跟隨

問題解答

對話交互

知識推理

使用案例

智能助手

對話系統

構建能理解複雜指令的對話AI

在Alpaca評估中表現優異

教育研究

AI教學助手

解答學科問題並提供分步解釋

在MMLU綜合評估達到57.81分

🚀 Instella✨：具備卓越性能的完全開源語言模型

AMD 欣然宣佈推出 Instella，這是一系列完全開源的、擁有 30 億參數的最先進語言模型（LM），它們在 AMD Instinct™ MI300X GPU 上從頭開始訓練而成。Instella 模型的性能超越了現有的同等規模的完全開源模型，並且與 Llama - 3.2 - 3B、Gemma - 2 - 2B 和 Qwen - 2.5 - 3B 等最先進的開放權重模型（包括它們經過指令調優的版本）相比，也展現出了具有競爭力的表現。

圖 1：預訓練和指令調優模型的預訓練令牌與平均性能的帕累託前沿。

通過在 Instinct MI300X GPU 上從頭開始訓練 Instella，我們展示了我們硬件在處理複雜的大規模 AI 訓練工作負載方面的能力和可擴展性，為 AI 硬件領域提供了一個可行的選擇。秉承 AMD 對開源的承諾，我們將在此處發佈與 Instella 模型相關的所有資源，包括模型權重、詳細的訓練配置、數據集和代碼，以促進 AI 社區的協作、復現和創新，從而加速技術進步。

要點總結

推出 Instella：這是 AMD 開發的一系列 30 億參數的語言模型，在 128 個 Instinct MI300X GPU 上從頭開始訓練。
性能卓越：Instella 模型在可比規模的現有完全開源語言模型中表現顯著更優（圖 1），並且通過實現與最先進的開放權重模型及其指令調優版本相競爭的性能，縮小了完全開源模型與開放權重模型之間的差距。
完全開放且可訪問：模型權重、訓練超參數、數據集和代碼完全開源發佈，促進了 AI 社區的創新和協作。
高效訓練技術支持：在 AMD ROCm 軟件棧的支持下，Instella 採用了諸如 FlashAttention - 2、Torch Compile 和具有混合分片的完全分片數據並行（FSDP）等高效訓練技術，以在大型集群上擴展模型訓練。

📦 Instella 模型

在本次發佈中，我們推出了以下 Instella 模型：

模型	階段	訓練數據（令牌）	描述
[Instella - 3B - Stage1](https://huggingface.co/amd/Instella - 3B - Stage1)	預訓練（階段 1）	4.065 萬億	第一階段預訓練，以培養自然語言理解能力。
[Instella - 3B](https://huggingface.co/amd/Instella - 3B)	預訓練（階段 2）	575.75 億	第二階段預訓練，以進一步增強問題解決能力。
[Instella - 3B - SFT](https://huggingface.co/amd/Instella - 3B - SFT)	監督微調（SFT）	89.02 億（3 個週期）	監督微調，以實現指令跟隨能力。
[Instella - 3B - Instruct](https://huggingface.co/amd/Instella - 3B - instruct)	直接偏好優化（DPO）	7.6 億	通過直接偏好優化與人類偏好對齊，並加強聊天能力。
	總計：	4.15 萬億

表 1：Instella 模型和訓練階段。

Instella 模型是基於自迴歸變壓器架構的純文本語言模型，擁有 30 億參數。從架構上看，Instella 包含 36 個解碼器層，每層有 32 個注意力頭。這些模型支持最長 4096 個令牌的序列長度，並使用 OLMo 分詞器，詞彙量約為 50000 個令牌。在預訓練和微調過程中，我們使用了 FlashAttention - 2、Torch Compile 和 bfloat16 混合精度訓練，以減少內存使用，提高計算速度並優化資源利用。為了平衡集群內節點間的內存效率和節點內的通信開銷，我們採用了具有混合分片的完全分片數據並行（FSDP），將模型參數、梯度和優化器狀態在節點內分片，並在節點間複製。

我們的訓練管道基於開源的 OLMo 代碼庫，並針對我們的硬件和模型架構進行了調整和優化。在預訓練階段，我們總共使用了 128 個 Instinct MI300X GPU，分佈在 16 個節點上，每個節點配備 8 個 Instinct MI300X GPU。我們使用來自 OLMES、[FastChat MT - Bench](https://github.com/lm - sys/FastChat/blob/main/fastchat/llm_judge/README.md) 和 [Alpaca](https://github.com/tatsu - lab/alpaca_eval/tree/main) 的標準任務對我們的模型和基線進行了評估。有關架構、訓練管道/超參數和評估結果的更多詳細信息，請參考我們的 [博客](https://rocm.blogs.amd.com/artificial - intelligence/introducing - instella - 3B/README.html)、[Hugging Face 模型卡片](https://huggingface.co/amd/Instella - 3B) 和 [Github 倉庫](https://github.com/AMD - AIG - AIMA/Instella)。

🔧 訓練管道

Instella 模型的訓練包括四個階段，每個階段逐步增強模型的能力，從基本的自然語言理解到指令跟隨，再到與人類偏好對齊。

模型概述

階段	模型	訓練令牌	層數	注意力頭	模型隱藏大小	MLP 隱藏大小	上下文長度	RoPE Theta
預訓練	Instella - 3B - stage1	4.065T	36	32	2560	13824	4096	10000
預訓練	Instella - 3B	57.575B	36	32	2560	13824	4096	10000
監督微調（SFT）	Instella - 3B - SFT	8.902B（x3）	36	32	2560	13824	4096	10000
直接偏好優化（DPO）	Instella - 3B - instruct	760M	36	32	2560	13824	4096	10000

超參數

階段	優化器	峰值學習率	學習率調度器	Alpha F	預熱（步數）	權重衰減	衰減範數和偏差	衰減嵌入	批量大小（令牌）	週期數
預訓練階段 1	AdamW(0.9, 0.95)	4.0e - 4	cosine_with_warmup	0.1	2000	0.1	是	是	4M	1
預訓練階段 2	AdamW(0.9, 0.95)	4.0e - 5	cosine_with_warmup	0.0	0	0.1	是	是	4M	1
監督微調（SFT）	AdamW(0.9, 0.95)	1.0e - 5	linear_with_warmup	0.001	500	0.1	是	是	0.5M	3
直接偏好優化（DPO）	AdamW(0.9, 0.95)	5.0e - 7	linear	--	10%	0.1	--	--	0.25M	1

🚀 快速開始

📦 安裝指南

首先，根據你操作系統的具體說明安裝 PyTorch。對於 AMD GPU，你也可以從 [rocm/pytorch](https://hub.docker.com/r/rocm/pytorch/tags?name = pytorch) Docker 鏡像開始。

要從源代碼安裝（推薦用於訓練/微調），請運行以下命令：

git clone https://github.com/AMD-AIG-AIMA/Instella.git
cd Instella
# 在 MI300X 上安裝 Flash - Attention
GPU_ARCH=gfx942 MAX_JOBS=$(nproc) pip install git+https://github.com/Dao-AILab/flash-attention.git -v
# 安裝其他依賴項
pip install -e .[all]

💻 使用示例

from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "amd/Instella-3B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(checkpoint, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", trust_remote_code=True)

prompt = [{"role": "user", "content": "What are the benefits of open-source AI research?"}]
inputs = tokenizer.apply_chat_template(
    prompt,
    add_generation_prompt=True,
    return_tensors='pt'
)

tokens = model.generate(
    inputs.to(model.device),
    max_new_tokens=1024,
    temperature=0.8,
    do_sample=True
)

print(tokenizer.decode(tokens[0], skip_special_tokens=False))

在 TRL 中進行聊天

你還可以使用 TRL CLI 在終端中與模型進行聊天：

pip install trl
trl chat --model_name_or_path amd/Instella-3B-Instruct --trust_remote_code --max_new_tokens 1024

# <root>:
# which is bigger 9.8 or 9.11?

# <amd/Instella-3B-Instruct>:
# 9.8 is bigger than 9.11. The difference between the two numbers is 0.69 (9.8 - 9.11 = 0.69), which indicates that 9.8 is 0.69 units larger than 9.11.

📊 結果

預訓練

模型	大小	訓練令牌	平均	ARC 挑戰	ARC 簡單	BoolQ	Hellaswag	PiQA	SciQ	Winnograde	OpenBookQA	MMLU	BBH（3 - 樣本）	GSM8k（8 - 樣本）
開放權重模型
Gemma - 2 - 2B	2.61B	~2T	59.34	39.46	59.30	74.50	70.50	76.40	96.60	69.80	44.80	53.28	40.75	27.37
Llama - 3.2 - 3B	3.21B	~9T	62.51	47.16	64.91	74.80	73.10	75.90	95.30	70.30	51.20	57.81	47.00	30.10
Qwen2.5 - 3B	3.09B	~18T	68.30	51.51	67.19	79.10	72.10	77.40	95.50	69.30	51.40	67.22	56.69	63.84
完全開源模型
Pythia - 2.8b	2.91B	300B	49.83	40.47	60.70	64.80	60.10	72.50	89.70	60.80	42.60	26.09	27.69	2.73
GPTNeo - 2.7B	2.72B	~420B	47.96	38.46	54.56	62.70	55.20	70.80	88.00	58.30	40.80	27.83	27.25	3.71
OpenELM - 3B	3.04B	~1.5T	52.28	37.46	58.42	68.60	71.70	75.60	92.50	65.40	46.40	26.69	29.40	2.96
StableLM - 3B - 4E1T	2.8B	~4T	58.51	44.82	67.02	75.40	74.20	78.40	93.40	68.40	48.60	45.19	37.33	10.84
Instella - 3B - Stage1	3.11B	~4T	61.33	53.85	73.16	78.70	74.20	77.50	94.90	71.20	51.40	54.69	34.30	10.77
Instella - 3B	3.11B	~4T + 60B	66.59	52.84	70.53	76.50	75.00	77.80	96.40	73.10	52.40	58.31	39.74	59.82

表 2：預訓練模型在標準基準測試中的性能。這裡粗體表示最佳性能，下劃線表示第二佳性能。

性能超越：Instella - 3B - Stage1 和 Instella - 3B 模型在所有基準測試中（除了 PIQA）均顯著優於其他完全開源模型。我們最終的預訓練檢查點 Instella - 3B 在平均性能上比現有的表現最佳的完全開源預訓練模型高出 ⬆️8.08%，在 ARC 挑戰 [+8.02%]、ARC 簡單 [+3.51%]、Winnograde [+4.7%]、OpenBookQA [+3.88%]、MMLU [+13.12%] 和 ️GSM8K [+48.98%] 等方面有顯著提升。
第二階段預訓練提升顯著：第二階段預訓練使整體平均性能相對於第一階段提高了 ⬆️5.26%，大幅縮小了 Instella - 3B 模型與閉源模型之間的性能差距，並且 在平均性能上比 Llama - 3.2 - 3B 高出 ⬆️4.08%（ARC 挑戰 [+5.69%]、ARC 簡單 [+5.61%] 和 GSM8k [+29.72%]），比 Gemma - 2 - 2B 高出 ⬆️7.25%（ARC 挑戰 [+13.38%]、ARC 簡單 [+11.23%]、Hellaswag [+4.5%]、OpenBookQA [+7.6%]、MMLU [+5.03%] 和 GSM8k [+32.45%]），並且在大多數基準測試中與 Qwen - 2.5 - 3B 具有競爭力。
多階段預訓練效果顯著：使用多樣化和高質量的數據混合進行多階段預訓練顯著增強了 Instella - 3B 的能力，使其成為同等規模語言模型領域中一個具有競爭力的開源替代方案。

指令調優結果

模型	大小	訓練令牌	平均	MMLU	TruthfulQA	BBH	GPQA	GSM8K	Minerva MATH	IFEval	AlpacaEval 2	MT - Bench
開放權重模型
Gemma - 2 - 2B - Instruct	2.61B	~2T	39.04	58.35	55.76	42.96	25.22	53.45	22.48	55.64	29.41	8.07
Llama - 3.2 - 3B - Instruct	3.21B	~9T	47.53	61.50	50.23	61.50	29.69	77.03	46.00	75.42	19.31	7.13
Qwen2.5 - 3B - Instruct	3.09B	~18T	48.72	66.90	57.16	57.29	28.13	75.97	60.42	62.48	22.12	8.00
完全開源模型
StableLM - zephyr - 3B	2.8B	4T	30.50	45.10	47.90	39.32	25.67	58.38	10.38	34.20	7.51	6.04
OpenELM - 3B - Instruct	3.04B	~1.5T	14.11	27.36	38.08	24.24	18.08	1.59	0.38	16.08	0.21	1.00
Instella - 3B - SFT	3.11B	~4T	42.05	58.76	52.49	46.00	28.13	71.72	40.50	66.17	7.58	7.07
Instella - 3B - Instruct	3.11B	~4T	44.87	58.90	55.47	46.75	30.13	73.92	42.46	71.35	17.59	7.23

表 2：指令調優模型在標準基準測試中的性能。這裡粗體表示最佳性能，下劃線表示第二佳性能。

顯著超越其他完全開源模型：Instella - 3B - Instruct 模型在所有評估基準測試中始終顯著優於其他完全開源模型，平均得分比下一個表現最佳的完全開源指令調優模型高出 ⬆️14.37%。在所有聊天基準測試中都有顯著優勢（MMLU [+13%]、TruthfulQA [7.57%]、BBH [7.43%]、GPQA [+4.46%]、IFEval [+37.15]、Alpaca 2 [10.08%] 和 MT - Bench [1.2%]）。
縮小與領先開放權重模型的差距：Instella - 3B - Instruct 縮小了與領先開放權重模型的性能差距。Instella - 3B - Instruct 與現有的最先進的開放權重指令調優模型表現相當或略有超越，例如 Llama - 3.2 - 3B - Instruct（TruthfulQA [+5.24%]、GPQA [0.45%] 和 MT - Bench [+0.1%]）和 Qwen2.5 - 3B - Instruct（GPQA [+2.01%] 和 IFEval [+8.87%]），同時在平均得分上比 Gemma - 2 - 2B - Instruct 高出 ⬆️5.83%（MMLU [+0.55%]、BBH [+3.79]、GPQA [+4.91]、GSM8k [+20.47]、Minerva MATH [+19.98] 和 IFEval [+15.17%]）。
在指令跟隨和多輪問答任務中表現出色：總體而言，Instella - 3B - Instruct 在指令跟隨任務和多輪問答任務（如 TruthfulQA、GPQA、IFEval 和 MT - Bench）中表現出色，並且在其他知識回憶和數學基準測試中與現有的最先進開放權重模型相比具有很強的競爭力，同時其訓練所需的令牌數量顯著更少。

📚 訓練數據

階段	模型	數據集	許可證
預訓練階段 1	Instella - 3B - stage1	[https://huggingface.co/datasets/allenai/OLMoE - mix - 0924](https://huggingface.co/datasets/allenai/OLMoE - mix - 0924)	ODC - BY - 1.0
預訓練階段 2	Instella - 3B	[https://huggingface.co/datasets/allenai/tulu - 3 - sft - mixture](https://huggingface.co/datasets/allenai/tulu - 3 - sft - mixture)	ODC - BY - 1.0
預訓練階段 2	Instella - 3B	[https://huggingface.co/datasets/allenai/dolmino - mix - 1124](https://huggingface.co/datasets/allenai/dolmino - mix - 1124)	ODC - BY - 1.0
預訓練階段 2	Instella - 3B	[https://huggingface.co/datasets/teknium/OpenHermes - 2.5](https://huggingface.co/datasets/teknium/OpenHermes - 2.5)	參考源材料
預訓練階段 2	Instella - 3B	[https://huggingface.co/datasets/TIGER - Lab/WebinstructSub](https://huggingface.co/datasets/TIGER - Lab/WebinstructSub)	Apache - 2.0
預訓練階段 2	Instella - 3B	[https://huggingface.co/datasets/m - a - p/Code - Feedback](https://huggingface.co/datasets/m - a - p/Code - Feedback)	Apache - 2.0
預訓練階段 2	Instella - 3B	https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k	MIT
預訓練階段 2	Instella - 3B	[https://huggingface.co/datasets/HuggingFaceTB/smollm - corpus/viewer/python - edu](https://huggingface.co/datasets/HuggingFaceTB/smollm - corpus/viewer/python - edu)	ODC - BY - 1.0
預訓練階段 2	Instella - 3B	[https://github.com/google - deepmind/mathematics_dataset](https://github.com/google - deepmind/mathematics_dataset)	Apache - 2.0
預訓練階段 2	Instella - 3B	[https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic)	[許可證](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic/blob/main/LICENSE)
監督微調（SFT）	Instella - 3B - SFT	[https://huggingface.co/datasets/nvidia/OpenMathinstruct - 2](https://huggingface.co/datasets/nvidia/OpenMathinstruct - 2)	CC - BY - 4.0
監督微調（SFT）	Instella - 3B - SFT	https://huggingface.co/datasets/cais/mmlu	MIT
監督微調（SFT）	Instella - 3B - SFT	https://huggingface.co/datasets/HuggingFaceTB/smoltalk	Apache - 2.0
監督微調（SFT）	Instella - 3B - SFT	[https://huggingface.co/datasets/GAIR/o1 - journey](https://huggingface.co/datasets/GAIR/o1 - journey)	參考源材料
監督微調（SFT）	Instella - 3B - SFT	[https://huggingface.co/datasets/allenai/tulu - 3 - sft - personas - instruction - following (Tulu3 的子集)](https://huggingface.co/datasets/allenai/tulu - 3 - sft - personas - instruction - following)	ODC - BY - 1.0
直接偏好優化（DPO）	Instella - 3B - instruct	[https://huggingface.co/datasets/allenai/olmo - 2 - 1124 - 7b - preference - mix](https://huggingface.co/datasets/allenai/olmo - 2 - 1124 - 7b - preference - mix)	ODC - BY - 1.0

⚠️ 重要提示

有關訓練數據集的更多信息，包括適用的許可條款和使用限制，可在鏈接的源位置找到。

📝 總結

Instella 系列模型的發佈是推進開源 AI 和展示 AMD 硬件在大規模語言模型訓練方面能力的重要一步。Instella 系列的 30 億參數模型在關鍵基準測試中顯著優於現有的完全開源的同等規模模型，並且與同等的開放權重模型具有競爭力，我們將其歸功於高質量的數據混合選擇、多階段訓練管道以及使用高性能的 Instinct MI300X GPU 進行大規模訓練。

通過將 Instella 模型完全開源，包括權重、訓練配置、數據集和代碼，我們旨在促進 AI 社區的創新和協作。我們相信，透明度、可復現性和可訪問性是 AI 研究和開發進步的關鍵驅動力。我們邀請開發者、研究人員和 AI 愛好者探索 Instella，為其持續改進做出貢獻，並與我們一起突破語言模型的可能性邊界。

我們將繼續在多個維度上增強模型，包括上下文長度、推理能力和多模態能力。此外，我們將擴大模型和數據集的規模，同時探索不同的架構方法。請關注有關 Instella 語言模型系列、其功能和能力的更多精彩博客！

📚 額外資源

Hugging Face 模型卡片

預訓練模型：
- Instella - 3B - Stage1：[amd/Instella - 3B - Stage1](https://huggingface.co/amd/Instella - 3B - Stage1)，第一階段預訓練檢查點。
- Instella - 3B：[amd/Instella - 3B](https://huggingface.co/amd/Instella - 3B)，最終預訓練檢查點。
指令調優模型：
- Instella - 3B - SFT：[amd/Instella - 3B - SFT](https://huggingface.co/amd/Instella - 3B - SFT)，監督微調檢查點。
- Instella - 3B - Instruct：[amd/Instella - 3B - Instruct](https://huggingface.co/amd/Instella - 3B - Instruct)，最終指令調優檢查點。

數據集

第二階段預訓練的 GSM8k 合成數據集：[amd/Instella - GSM8K - synthetic](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic)

該數據集由兩個分割組成：train 和 train_119K。
對於 Instella - 3B 模型的第二階段預訓練，我們使用了 train_119K 分割，它是較大的 train 分割的一個子集。

代碼

Github：[https://github.com/AMD - AIG - AIMA/Instella](https://github.com/AMD - AIG - AIMA/Instella)

請參考以下博客，以瞭解如何在 AMD GPU 上使用這些技術：

[使用 ROCm™ 在 AMD GPU 上進行 PyTorch 完全分片數據並行（FSDP）訓練](https://rocm.blogs.amd.com/artificial - intelligence/fsdp - training - pytorch/README.html)
[在 AMD GPU 上使用 Flash Attention 加速大語言模型](https://rocm.blogs.amd.com/artificial - intelligence/flash - attention/README.html)
[使用 ROCm™ 在 AMD GPU 上通過 torch.compile 加速 PyTorch 模型](https://rocm.blogs.amd.com/artificial - intelligence/torch_compile/README.html)
[推出首款 AMD 10 億參數語言模型：AMD OLMo](https://www.amd.com/en/developer/resources/technical - articles/introducing - the - first - amd - 1b - language - model.html)

⚠️ 偏差、風險和限制

研究用途：這些模型僅用於研究目的，不適用於需要高度事實準確性、安全關鍵情況、健康或醫療應用、生成虛假信息或促進有害對話的用例。
無安全保證：模型檢查點的提供沒有任何安全承諾。用戶必須根據各自的用例進行全面評估，並實施安全過濾機制。
可能生成不良內容：可能會通過提示使模型生成事實不準確、有害、暴力、有毒、有偏見或其他令人反感的內容。即使提示並非有意產生此類輸出，也可能會生成此類內容。因此，建議用戶在使用模型時保持警惕，並進行負責任的思考。
多語言能力未測試：模型的多語言能力尚未經過測試，因此可能會誤解不同語言的輸入並生成錯誤的響應。

📄 許可證

Instella - 3B 模型根據 ResearchRAIL 許可證獲得學術和研究用途許可。
用於第二階段預訓練的 [amd/Instella - GSM8K - synthetic](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic) 數據集是使用 Qwen2.5 - 72B - Instruct 構建的，並根據 ResearchRAIL 許可證獲得學術和研究用途許可。有關更多信息，請參考 [許可證](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic/blob/main/LICENSE) 和 [通知](https://huggingface.co/datasets/amd/Instella - GSM8K - synthetic/blob/main/NOTICES) 文件。
有關更多信息，請參考 [許可證](https://huggingface.co/amd/Instella - 3B/blob/main/LICENSE) 和 [通知](https://huggingface.co/amd/Instella - 3B/blob/main/NOTICES) 文件。

📖 引用

如果你想引用我們的 Instella - 3B 模型，請使用以下 BibTeX 格式：

@misc{Instella,
    title = {Instella: Fully Open Language Models with Stellar Performance},
    url = {https://huggingface.co/amd/Instella-3B},
    author = {Jiang Liu, Jialian Wu, Xiaodong Yu, Prakamya Mishra, Sudhanshu Ranjan, Zicheng Liu, Chaitanya Manem, Yusheng Su, Pratik Prabhanjan Brahma, Gowtham Ramesh, Ximeng Sun, Ze Wang, Emad Barsoum},
    month = {March},
    year = {2025}
}