🚀 Tri-21B大語言模型
Tri-21B是一款旗艦級大語言模型,它重新定義了大語言模型訓練的效率邊界。僅使用2T訓練令牌,該模型便達到了最先進的性能,證明了卓越的能力並不一定需要大量的計算資源。
🚀 快速開始
以下是一個使用apply_chat_template
的代碼片段,展示瞭如何加載分詞器和模型並生成文本。
Tri-21B使用示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "trillionlabs/Tri-21B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Explain the concept of quantum computing in simple terms."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
vLLM, SGLang部署
Tri-21B也支持使用 vLLM 和 SGLang 進行部署!
vllm serve trillionlabs/Tri-21B --dtype bfloat16 --max-model-len 8192
vllm serve trillionlabs/Tri-21B \
--dtype bfloat16 \
--max-model-len 8192 \
--gpu-memory-utilization 0.95 \
--port 8000
python3 -m sglang.launch_server --model-path trillionlabs/Tri-21B --dtype bfloat16
python3 -m sglang.launch_server \
--model-path trillionlabs/Tri-21B \
--dtype bfloat16 \
--context-length 8192 \
--port 30000 \
--host 0.0.0.0
✨ 主要特性
- 前所未有的訓練效率:僅使用2T令牌進行訓練,遠少於同類模型,同時在MMLU/KMMLU/Global MMLU基準測試中實現了70.3%的平均準確率。
- 突破帕累託邊界:僅需2.95E+23 FLOPs,Tri-21B的性能便超過了那些需要2 - 10倍計算資源的模型,為高效擴展樹立了新的標準。
- 增強推理能力:對訓練數據集進行了優化,專門提升推理能力。
- 先進的後訓練:顯著改進了強化學習訓練流程,專注於數學推理和日常使用。
- 多語言支持:針對韓語、英語和日語進行了特別優化。
📦 模型規格
Tri-21B
屬性 |
詳情 |
模型類型 |
因果語言模型 |
訓練階段 |
預訓練和後訓練 |
架構 |
帶有RoPE、SwiGLU、RMSNorm和GQA的Transformer解碼器 |
參數數量 |
207.3億 |
層數 |
32 |
注意力頭數量 |
32(查詢)/ 8(鍵、值) |
上下文長度 |
8192 |
所見令牌數量 |
2T |
詞彙表大小 |
124416 |
📚 訓練效率分析
我們的訓練效率方法在該領域樹立了新的標杆。以下對比展示了Tri-21B與其他類似規模的先進模型相比,如何在每個FLOP上實現更優的性能:
模型 |
FLOPs |
平均準確率¹ |
效率比² |
Tri-21B |
2.95E+23 |
70.3% |
1.00x(基準) |
Gemma2-9b |
4.42E+23 |
61.5% |
0.48x |
Qwen2.5-7B |
8.22E+23 |
63.4% |
0.29x |
Exaone-3.5-32B |
1.25E+24 |
58.5% |
0.19x |
Gemma 3 IT 27B |
2.27E+24 |
67.6% |
0.11x |
Qwen2.5-32B |
3.46E+24 |
74.6% |
0.10x |
Qwen3-32B |
5.77E+24 |
73.5% |
0.06x |
¹ MMLU / KMMLU / Global MMLU (ja) 的平均值
² 相對於Tri-21B的每FLOP性能
這種效率突破使組織能夠在沒有傳統計算障礙的情況下部署先進的語言模型,使更多人能夠使用先進的人工智能能力。
📚 評估
我們在一系列綜合基準測試中對Tri-21B進行了評估,這些測試涵蓋了一般推理、知識回憶、編碼能力、數學推理和指令遵循能力。我們將我們的模型與類似規模的最先進模型Gemmma-3-IT-27B和Qwen3-32B進行了比較,以展示其具有競爭力的性能。
完整評估設置
# 基準測試評估設置
基準測試 |
語言 |
評估設置 |
指標 |
一般推理和事實性 |
|
|
|
• HellaSwag |
英語 |
0-shot |
準確率 |
• ARC:C |
英語 |
0-shot |
準確率 |
• HAERAE |
韓語 |
3-shot |
準確率 |
• CLIcK |
韓語 |
0-shot |
準確率 |
• KoBEST |
韓語 |
5-shot |
準確率 |
知識和推理 |
|
|
|
• KMMLU |
韓語 |
5-shot (0-shot, CoT) |
準確率(精確匹配) |
• MMLU |
英語 |
5-shot (0-shot, CoT) |
準確率(精確匹配) |
• MMLU-Pro |
英語 |
0-shot, CoT |
精確匹配 |
• Global-MMLU-Lite-ja |
日語 |
5-shot |
準確率 |
編碼 |
|
|
|
• HumanEval |
英語 |
0-shot |
pass@1 |
• MBPPPlus |
英語 |
0-shot |
pass@1 |
數學推理 |
|
|
|
• GSM8k |
英語 |
0-shot, CoT |
精確匹配 |
• MATH |
英語 |
0-shot, CoT |
精確匹配 |
• GPQA |
英語 |
4-shot |
準確率 |
• GPQA Diamond |
英語 |
0-shot, CoT |
準確率 |
• HRM8k |
韓語 |
0-shot, CoT |
精確匹配 |
指令遵循和聊天 |
|
|
|
• IFEval |
英語 |
0-shot |
嚴格平均 |
• koIFEval |
韓語 |
0-shot |
嚴格平均 |
• MT-Bench |
英語 |
LLM作為評判(gpt-4o) |
LLM分數 |
• KO-MT-Bench |
韓語 |
LLM作為評判(gpt-4o) |
LLM分數 |
• systemIFEval |
英語 |
0-shot |
嚴格平均 |
- *注意,koIFEval、systemIFEval和KoRuler是我們內部的評估基準,適用於韓語,以更好地評估模型在韓語任務中的能力。
- **注意,MT-Bench、KO-MT-Bench和LogicKor使用10分制。
基準測試結果
參與比較的模型:
- Tri-21B:我們的旗艦210億參數模型
- Qwen3-32B:Qwen的320億參數模型
- Gemma3-IT-27B:谷歌的Gemma 3指令微調270億參數模型
一般推理和事實性
基準測試 |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
HAERAE |
86.16 |
71.67 |
78.09 |
KoBEST |
85.92 |
83.39 |
87.66 |
CLIcK |
72.32 |
66.89 |
67.54 |
KMMLU |
61.89 (69.90) |
61.73 (67.55) |
55.03 (60.61) |
MMLU |
77.62 (85.02) |
81.86 (84.46) |
77.42 (84.09) |
MMLU-Pro |
64.74 |
70.53 |
64.26 |
Global-MMLU-Lite-ja |
70.25 |
77.00 |
72.00 |
編碼
基準測試 |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
HumanEval |
75.61 |
74.39 |
87.80 |
MBPPPlus |
73.02 |
74.40 |
84.92 |
數學推理
基準測試 |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
GSM8k |
87.95 |
86.66 |
90.52 |
MATH |
77.60 |
81.40 |
85.00 |
GPQA |
39.73 |
41.07 |
37.95 |
GPQA-Diamond |
44.95 |
54.04 |
44.44 |
HRM8k |
56.70 |
66.24 |
63.90 |
指令遵循和聊天
基準測試 |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
IFEval |
80.75 |
86.08 |
80.78 |
koIFEval |
66.51 |
62.93 |
69.24 |
MT-Bench |
8.21 |
8.52 |
8.53 |
KO-MT-Bench |
7.79 |
8.47 |
8.46 |
systemIFEval |
77.40 |
77.92 |
77.94 |
基礎模型評估
下表顯示了Tri-21B基礎模型(指令微調前)在關鍵基準測試中的性能:
基準測試 |
Tri-21B基礎模型 |
MMLU |
76.99 |
KMMLU |
62.37 |
KoBEST |
85.07 |
BBH |
77.19 |
GSM8K |
70.36 |
MBPPPlus |
75.40 |
🔧 模型侷限
- 語言支持:該模型針對英語、韓語和日語進行了優化。使用其他語言可能會導致性能下降。
- 知識截止日期:模型的信息僅限於2025年2月之前可用的數據。
📄 許可證
此模型倉庫遵循Trillion許可證。
📞 聯繫我們
如有疑問,請聯繫:info@trillionlabs.co