🚀 Tri-21B大语言模型
Tri-21B是一款旗舰级大语言模型,它重新定义了大语言模型训练的效率边界。仅使用2T训练令牌,该模型便达到了最先进的性能,证明了卓越的能力并不一定需要大量的计算资源。
🚀 快速开始
以下是一个使用apply_chat_template
的代码片段,展示了如何加载分词器和模型并生成文本。
Tri-21B使用示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "trillionlabs/Tri-21B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Explain the concept of quantum computing in simple terms."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
vLLM, SGLang部署
Tri-21B也支持使用 vLLM 和 SGLang 进行部署!
vllm serve trillionlabs/Tri-21B --dtype bfloat16 --max-model-len 8192
vllm serve trillionlabs/Tri-21B \
--dtype bfloat16 \
--max-model-len 8192 \
--gpu-memory-utilization 0.95 \
--port 8000
python3 -m sglang.launch_server --model-path trillionlabs/Tri-21B --dtype bfloat16
python3 -m sglang.launch_server \
--model-path trillionlabs/Tri-21B \
--dtype bfloat16 \
--context-length 8192 \
--port 30000 \
--host 0.0.0.0
✨ 主要特性
- 前所未有的训练效率:仅使用2T令牌进行训练,远少于同类模型,同时在MMLU/KMMLU/Global MMLU基准测试中实现了70.3%的平均准确率。
- 突破帕累托边界:仅需2.95E+23 FLOPs,Tri-21B的性能便超过了那些需要2 - 10倍计算资源的模型,为高效扩展树立了新的标准。
- 增强推理能力:对训练数据集进行了优化,专门提升推理能力。
- 先进的后训练:显著改进了强化学习训练流程,专注于数学推理和日常使用。
- 多语言支持:针对韩语、英语和日语进行了特别优化。
📦 模型规格
Tri-21B
属性 |
详情 |
模型类型 |
因果语言模型 |
训练阶段 |
预训练和后训练 |
架构 |
带有RoPE、SwiGLU、RMSNorm和GQA的Transformer解码器 |
参数数量 |
207.3亿 |
层数 |
32 |
注意力头数量 |
32(查询)/ 8(键、值) |
上下文长度 |
8192 |
所见令牌数量 |
2T |
词汇表大小 |
124416 |
📚 训练效率分析
我们的训练效率方法在该领域树立了新的标杆。以下对比展示了Tri-21B与其他类似规模的先进模型相比,如何在每个FLOP上实现更优的性能:
模型 |
FLOPs |
平均准确率¹ |
效率比² |
Tri-21B |
2.95E+23 |
70.3% |
1.00x(基准) |
Gemma2-9b |
4.42E+23 |
61.5% |
0.48x |
Qwen2.5-7B |
8.22E+23 |
63.4% |
0.29x |
Exaone-3.5-32B |
1.25E+24 |
58.5% |
0.19x |
Gemma 3 IT 27B |
2.27E+24 |
67.6% |
0.11x |
Qwen2.5-32B |
3.46E+24 |
74.6% |
0.10x |
Qwen3-32B |
5.77E+24 |
73.5% |
0.06x |
¹ MMLU / KMMLU / Global MMLU (ja) 的平均值
² 相对于Tri-21B的每FLOP性能
这种效率突破使组织能够在没有传统计算障碍的情况下部署先进的语言模型,使更多人能够使用先进的人工智能能力。
📚 评估
我们在一系列综合基准测试中对Tri-21B进行了评估,这些测试涵盖了一般推理、知识回忆、编码能力、数学推理和指令遵循能力。我们将我们的模型与类似规模的最先进模型Gemmma-3-IT-27B和Qwen3-32B进行了比较,以展示其具有竞争力的性能。
完整评估设置
# 基准测试评估设置
基准测试 |
语言 |
评估设置 |
指标 |
一般推理和事实性 |
|
|
|
• HellaSwag |
英语 |
0-shot |
准确率 |
• ARC:C |
英语 |
0-shot |
准确率 |
• HAERAE |
韩语 |
3-shot |
准确率 |
• CLIcK |
韩语 |
0-shot |
准确率 |
• KoBEST |
韩语 |
5-shot |
准确率 |
知识和推理 |
|
|
|
• KMMLU |
韩语 |
5-shot (0-shot, CoT) |
准确率(精确匹配) |
• MMLU |
英语 |
5-shot (0-shot, CoT) |
准确率(精确匹配) |
• MMLU-Pro |
英语 |
0-shot, CoT |
精确匹配 |
• Global-MMLU-Lite-ja |
日语 |
5-shot |
准确率 |
编码 |
|
|
|
• HumanEval |
英语 |
0-shot |
pass@1 |
• MBPPPlus |
英语 |
0-shot |
pass@1 |
数学推理 |
|
|
|
• GSM8k |
英语 |
0-shot, CoT |
精确匹配 |
• MATH |
英语 |
0-shot, CoT |
精确匹配 |
• GPQA |
英语 |
4-shot |
准确率 |
• GPQA Diamond |
英语 |
0-shot, CoT |
准确率 |
• HRM8k |
韩语 |
0-shot, CoT |
精确匹配 |
指令遵循和聊天 |
|
|
|
• IFEval |
英语 |
0-shot |
严格平均 |
• koIFEval |
韩语 |
0-shot |
严格平均 |
• MT-Bench |
英语 |
LLM作为评判(gpt-4o) |
LLM分数 |
• KO-MT-Bench |
韩语 |
LLM作为评判(gpt-4o) |
LLM分数 |
• systemIFEval |
英语 |
0-shot |
严格平均 |
- *注意,koIFEval、systemIFEval和KoRuler是我们内部的评估基准,适用于韩语,以更好地评估模型在韩语任务中的能力。
- **注意,MT-Bench、KO-MT-Bench和LogicKor使用10分制。
基准测试结果
参与比较的模型:
- Tri-21B:我们的旗舰210亿参数模型
- Qwen3-32B:Qwen的320亿参数模型
- Gemma3-IT-27B:谷歌的Gemma 3指令微调270亿参数模型
一般推理和事实性
基准测试 |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
HAERAE |
86.16 |
71.67 |
78.09 |
KoBEST |
85.92 |
83.39 |
87.66 |
CLIcK |
72.32 |
66.89 |
67.54 |
KMMLU |
61.89 (69.90) |
61.73 (67.55) |
55.03 (60.61) |
MMLU |
77.62 (85.02) |
81.86 (84.46) |
77.42 (84.09) |
MMLU-Pro |
64.74 |
70.53 |
64.26 |
Global-MMLU-Lite-ja |
70.25 |
77.00 |
72.00 |
编码
基准测试 |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
HumanEval |
75.61 |
74.39 |
87.80 |
MBPPPlus |
73.02 |
74.40 |
84.92 |
数学推理
基准测试 |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
GSM8k |
87.95 |
86.66 |
90.52 |
MATH |
77.60 |
81.40 |
85.00 |
GPQA |
39.73 |
41.07 |
37.95 |
GPQA-Diamond |
44.95 |
54.04 |
44.44 |
HRM8k |
56.70 |
66.24 |
63.90 |
指令遵循和聊天
基准测试 |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
IFEval |
80.75 |
86.08 |
80.78 |
koIFEval |
66.51 |
62.93 |
69.24 |
MT-Bench |
8.21 |
8.52 |
8.53 |
KO-MT-Bench |
7.79 |
8.47 |
8.46 |
systemIFEval |
77.40 |
77.92 |
77.94 |
基础模型评估
下表显示了Tri-21B基础模型(指令微调前)在关键基准测试中的性能:
基准测试 |
Tri-21B基础模型 |
MMLU |
76.99 |
KMMLU |
62.37 |
KoBEST |
85.07 |
BBH |
77.19 |
GSM8K |
70.36 |
MBPPPlus |
75.40 |
🔧 模型局限
- 语言支持:该模型针对英语、韩语和日语进行了优化。使用其他语言可能会导致性能下降。
- 知识截止日期:模型的信息仅限于2025年2月之前可用的数据。
📄 许可证
此模型仓库遵循Trillion许可证。
📞 联系我们
如有疑问,请联系:info@trillionlabs.co