Tri-21B開源大語言模型 - 低令牌訓練達先進性能，高效實用之選

首頁

Tri 21B

由trillionlabs開發

Tri-21B是一款旗艦級大語言模型，僅使用2T訓練令牌便達到最先進性能，重新定義了訓練效率邊界。

大型語言模型

Transformers

支持多種語言開源協議:其他 #高效訓練 #多語言推理 #低資源高精度

下載量 223

發布時間 : 7/19/2025

模型概述

Tri-21B是一款高效的大語言模型，專注於推理能力，支持多語言，並在多個基準測試中表現優異。

模型特點

高效訓練

僅使用2T令牌進行訓練，遠少於同類模型，同時在多個基準測試中實現70.3%的平均準確率。

突破帕累託邊界

僅需2.95E+23 FLOPs，性能超過需要2-10倍計算資源的模型。

增強推理能力

訓練數據集經過優化，專門提升推理能力。

先進的後訓練

改進強化學習訓練流程，專注於數學推理和日常使用。

多語言支持

針對韓語、英語和日語進行了特別優化。

模型能力

文本生成

問答系統

代碼生成

數學推理

多語言支持

指令遵循

使用案例

教育

解釋複雜概念

用簡單術語解釋量子計算等複雜概念

在MMLU基準測試中達到77.62%準確率

編程

代碼生成

根據描述生成代碼

HumanEval基準測試中達到75.61% pass@1

數學

數學問題解決

解決數學推理問題

GSM8k基準測試中達到87.95%準確率

🚀 Tri-21B大語言模型

Tri-21B是一款旗艦級大語言模型，它重新定義了大語言模型訓練的效率邊界。僅使用2T訓練令牌，該模型便達到了最先進的性能，證明了卓越的能力並不一定需要大量的計算資源。

🚀 快速開始

以下是一個使用apply_chat_template的代碼片段，展示瞭如何加載分詞器和模型並生成文本。

Tri-21B使用示例

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "trillionlabs/Tri-21B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Explain the concept of quantum computing in simple terms."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

vLLM, SGLang部署

Tri-21B也支持使用 vLLM 和 SGLang 進行部署！

# vLLM
vllm serve trillionlabs/Tri-21B --dtype bfloat16 --max-model-len 8192

# vLLM自定義選項
vllm serve trillionlabs/Tri-21B \
    --dtype bfloat16 \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.95 \
    --port 8000

# SGLang
python3 -m sglang.launch_server --model-path trillionlabs/Tri-21B --dtype bfloat16

# SGLang自定義選項
python3 -m sglang.launch_server \
    --model-path trillionlabs/Tri-21B \
    --dtype bfloat16 \
    --context-length 8192 \
    --port 30000 \
    --host 0.0.0.0

✨ 主要特性

前所未有的訓練效率：僅使用2T令牌進行訓練，遠少於同類模型，同時在MMLU/KMMLU/Global MMLU基準測試中實現了70.3%的平均準確率。
突破帕累託邊界：僅需2.95E+23 FLOPs，Tri-21B的性能便超過了那些需要2 - 10倍計算資源的模型，為高效擴展樹立了新的標準。
增強推理能力：對訓練數據集進行了優化，專門提升推理能力。
先進的後訓練：顯著改進了強化學習訓練流程，專注於數學推理和日常使用。
多語言支持：針對韓語、英語和日語進行了特別優化。

📦 模型規格

Tri-21B

屬性	詳情
模型類型	因果語言模型
訓練階段	預訓練和後訓練
架構	帶有RoPE、SwiGLU、RMSNorm和GQA的Transformer解碼器
參數數量	207.3億
層數	32
注意力頭數量	32（查詢）/ 8（鍵、值）
上下文長度	8192
所見令牌數量	2T
詞彙表大小	124416

📚 訓練效率分析

我們的訓練效率方法在該領域樹立了新的標杆。以下對比展示了Tri-21B與其他類似規模的先進模型相比，如何在每個FLOP上實現更優的性能：

模型	FLOPs	平均準確率¹	效率比²
Tri-21B	2.95E+23	70.3%	1.00x（基準）
Gemma2-9b	4.42E+23	61.5%	0.48x
Qwen2.5-7B	8.22E+23	63.4%	0.29x
Exaone-3.5-32B	1.25E+24	58.5%	0.19x
Gemma 3 IT 27B	2.27E+24	67.6%	0.11x
Qwen2.5-32B	3.46E+24	74.6%	0.10x
Qwen3-32B	5.77E+24	73.5%	0.06x

¹ MMLU / KMMLU / Global MMLU (ja) 的平均值
² 相對於Tri-21B的每FLOP性能

這種效率突破使組織能夠在沒有傳統計算障礙的情況下部署先進的語言模型，使更多人能夠使用先進的人工智能能力。

📚 評估

我們在一系列綜合基準測試中對Tri-21B進行了評估，這些測試涵蓋了一般推理、知識回憶、編碼能力、數學推理和指令遵循能力。我們將我們的模型與類似規模的最先進模型Gemmma-3-IT-27B和Qwen3-32B進行了比較，以展示其具有競爭力的性能。

完整評估設置

# 基準測試評估設置

基準測試	語言	評估設置	指標
一般推理和事實性
• HellaSwag	英語	0-shot	準確率
• ARC:C	英語	0-shot	準確率
• HAERAE	韓語	3-shot	準確率
• CLIcK	韓語	0-shot	準確率
• KoBEST	韓語	5-shot	準確率
知識和推理
• KMMLU	韓語	5-shot (0-shot, CoT)	準確率（精確匹配）
• MMLU	英語	5-shot (0-shot, CoT)	準確率（精確匹配）
• MMLU-Pro	英語	0-shot, CoT	精確匹配
• Global-MMLU-Lite-ja	日語	5-shot	準確率
編碼
• HumanEval	英語	0-shot	pass@1
• MBPPPlus	英語	0-shot	pass@1
數學推理
• GSM8k	英語	0-shot, CoT	精確匹配
• MATH	英語	0-shot, CoT	精確匹配
• GPQA	英語	4-shot	準確率
• GPQA Diamond	英語	0-shot, CoT	準確率
• HRM8k	韓語	0-shot, CoT	精確匹配
指令遵循和聊天
• IFEval	英語	0-shot	嚴格平均
• koIFEval	韓語	0-shot	嚴格平均
• MT-Bench	英語	LLM作為評判（gpt-4o）	LLM分數
• KO-MT-Bench	韓語	LLM作為評判（gpt-4o）	LLM分數
• systemIFEval	英語	0-shot	嚴格平均

*注意，koIFEval、systemIFEval和KoRuler是我們內部的評估基準，適用於韓語，以更好地評估模型在韓語任務中的能力。
**注意，MT-Bench、KO-MT-Bench和LogicKor使用10分制。

基準測試結果

參與比較的模型：

Tri-21B：我們的旗艦210億參數模型
Qwen3-32B：Qwen的320億參數模型
Gemma3-IT-27B：谷歌的Gemma 3指令微調270億參數模型

一般推理和事實性

基準測試	Tri-21B	Qwen3-32B	Gemma3-IT-27B
HAERAE	86.16	71.67	78.09
KoBEST	85.92	83.39	87.66
CLIcK	72.32	66.89	67.54
KMMLU	61.89 (69.90)	61.73 (67.55)	55.03 (60.61)
MMLU	77.62 (85.02)	81.86 (84.46)	77.42 (84.09)
MMLU-Pro	64.74	70.53	64.26
Global-MMLU-Lite-ja	70.25	77.00	72.00