🚀 Tri-21B
Tri-21Bは、LLMトレーニングにおける効率の限界を再定義する、当社の主力大規模言語モデルです。わずか2Tのトレーニングトークンで最先端の性能を達成することで、卓越した機能を実現するために過度の計算リソースは必要ないことを実証しています。
🚀 クイックスタート
以下はapply_chat_template
を使用して、トークナイザーとモデルをロードし、テキストを生成する方法を示すコードスニペットです。
基本的な使用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "trillionlabs/Tri-21B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Explain the concept of quantum computing in simple terms."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
高度な使用法
Tri-21Bは、vLLM と SGLang でも利用可能です!
vllm serve trillionlabs/Tri-21B --dtype bfloat16 --max-model-len 8192
vllm serve trillionlabs/Tri-21B \
--dtype bfloat16 \
--max-model-len 8192 \
--gpu-memory-utilization 0.95 \
--port 8000
python3 -m sglang.launch_server --model-path trillionlabs/Tri-21B --dtype bfloat16
python3 -m sglang.launch_server \
--model-path trillionlabs/Tri-21B \
--dtype bfloat16 \
--context-length 8192 \
--port 30000 \
--host 0.0.0.0
✨ 主な機能
- 前代未聞のトレーニング効率:2Tのトークンでトレーニングされており、同等のモデルよりも大幅に少ないトークンで、MMLU/KMMLU/Global MMLUベンチマーク全体で70.3%の平均精度を達成しています。
- パレートフロンティアの拡大:わずか2.95E+23 FLOPsで、2~10倍の計算量を必要とするモデルを上回り、効率的なスケーリングの新しい基準を設定しています。
- 強化された推論能力:推論能力を特に最適化するために、トレーニングデータセットの混合を変更しています。
- 高度な事後トレーニング:数学的推論と日常的な使用に焦点を当てたRLトレーニングパイプラインを大幅に改善しています。
- 多言語対応:韓国語、英語、日本語に特に最適化されています。
📦 インストール
このセクションでは、vLLM
とSGLang
を使用したTri-21Bのデプロイ方法を説明します。
vLLMを使用したデプロイ
vllm serve trillionlabs/Tri-21B --dtype bfloat16 --max-model-len 8192
vllm serve trillionlabs/Tri-21B \
--dtype bfloat16 \
--max-model-len 8192 \
--gpu-memory-utilization 0.95 \
--port 8000
SGLangを使用したデプロイ
python3 -m sglang.launch_server --model-path trillionlabs/Tri-21B --dtype bfloat16
python3 -m sglang.launch_server \
--model-path trillionlabs/Tri-21B \
--dtype bfloat16 \
--context-length 8192 \
--port 30000 \
--host 0.0.0.0
📚 ドキュメント
モデル仕様
属性 |
详情 |
モデルタイプ |
因果言語モデル |
トレーニング段階 |
事前トレーニングと事後トレーニング |
アーキテクチャ |
RoPE、SwiGLU、RMSNorm、GQAを備えたTransformerデコーダー |
パラメータ数 |
20.73B |
レイヤー数 |
32 |
アテンションヘッド数 |
32 (クエリ) / 8 (キー、バリュー) |
コンテキスト長 |
8,192 |
見たトークン数 |
2T |
語彙サイズ |
124,416 |
トレーニング効率分析
当社のトレーニング効率に対するアプローチは、この分野で新しい基準を設定しています。以下の比較は、Tri-21Bが同規模の他の最先端モデルと比較して、FLOPあたりの優れたパフォーマンスを達成していることを示しています。
モデル |
FLOPs |
平均精度¹ |
効率比² |
Tri-21B |
2.95E+23 |
70.3% |
1.00x (ベースライン) |
Gemma2-9b |
4.42E+23 |
61.5% |
0.48x |
Qwen2.5-7B |
8.22E+23 |
63.4% |
0.29x |
Exaone-3.5-32B |
1.25E+24 |
58.5% |
0.19x |
Gemma 3 IT 27B |
2.27E+24 |
67.6% |
0.11x |
Qwen2.5-32B |
3.46E+24 |
74.6% |
0.10x |
Qwen3-32B |
5.77E+24 |
73.5% |
0.06x |
¹ MMLU / KMMLU / Global MMLU (ja)の平均
² Tri-21Bに対するFLOPあたりのパフォーマンス
この効率の突破により、組織は従来の計算上の障壁なしに最先端の言語モデルを展開することができ、高度なAI機能へのアクセスを民主化しています。
評価
Tri-21Bは、一般的な推論、知識の想起、コーディング能力、数学的推論、および命令追従能力を評価する包括的なベンチマークセットで評価されています。同規模の最先端モデルであるGemmma-3-IT-27BとQwen3-32Bと比較することで、その競争力のあるパフォーマンスを実証しています。
完全な評価設定
# ベンチマーク評価設定
ベンチマーク |
言語 |
評価設定 |
指標 |
一般的な推論と事実性 |
|
|
|
• HellaSwag |
英語 |
0-shot |
精度 |
• ARC:C |
英語 |
0-shot |
精度 |
• HAERAE |
韓国語 |
3-shot |
精度 |
• CLIcK |
韓国語 |
0-shot |
精度 |
• KoBEST |
韓国語 |
5-shot |
精度 |
知識と推論 |
|
|
|
• KMMLU |
韓国語 |
5-shot (0-shot, CoT) |
精度 (完全一致) |
• MMLU |
英語 |
5-shot (0-shot, CoT) |
精度 (完全一致) |
• MMLU-Pro |
英語 |
0-shot, CoT |
完全一致 |
• Global-MMLU-Lite-ja |
日本語 |
5-shot |
精度 |
コーディング |
|
|
|
• HumanEval |
英語 |
0-shot |
pass@1 |
• MBPPPlus |
英語 |
0-shot |
pass@1 |
数学的推論 |
|
|
|
• GSM8k |
英語 |
0-shot, CoT |
完全一致 |
• MATH |
英語 |
0-shot, CoT |
完全一致 |
• GPQA |
英語 |
4-shot |
精度 |
• GPQA Diamond |
英語 |
0-shot, CoT |
精度 |
• HRM8k |
韓国語 |
0-shot, CoT |
完全一致 |
命令追従とチャット |
|
|
|
• IFEval |
英語 |
0-shot |
厳密平均 |
• koIFEval |
韓国語 |
0-shot |
厳密平均 |
• MT-Bench |
英語 |
LLM-as-a-judge (gpt-4o) |
LLMスコア |
• KO-MT-Bench |
韓国語 |
LLM-as-a-judge (gpt-4o) |
LLMスコア |
• systemIFEval |
英語 |
0-shot |
厳密平均 |
- *注意: koIFEval、systemIFEval、KoRulerは、韓国語でのモデル能力をより適切に評価するために韓国語用に適応させた当社独自の評価ベンチマークです。
- **注意: MT-Bench、KO-MT-Bench、LogicKorは10点満点で評価されます。
ベンチマーク結果
比較対象のモデル:
- Tri-21B:当社の主力21Bパラメータモデル
- Qwen3-32B:Qwenの32Bパラメータモデル
- Gemma3-IT-27B:GoogleのGemma 3命令調整済み27Bモデル
一般的な推論と事実性
ベンチマーク |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
HAERAE |
86.16 |
71.67 |
78.09 |
KoBEST |
85.92 |
83.39 |
87.66 |
CLIcK |
72.32 |
66.89 |
67.54 |
KMMLU |
61.89 (69.90) |
61.73 (67.55) |
55.03 (60.61) |
MMLU |
77.62 (85.02) |
81.86 (84.46) |
77.42 (84.09) |
MMLU-Pro |
64.74 |
70.53 |
64.26 |
Global-MMLU-Lite-ja |
70.25 |
77.00 |
72.00 |
コーディング
ベンチマーク |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
HumanEval |
75.61 |
74.39 |
87.80 |
MBPPPlus |
73.02 |
74.40 |
84.92 |
数学的推論
ベンチマーク |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
GSM8k |
87.95 |
86.66 |
90.52 |
MATH |
77.60 |
81.40 |
85.00 |
GPQA |
39.73 |
41.07 |
37.95 |
GPQA-Diamond |
44.95 |
54.04 |
44.44 |
HRM8k |
56.70 |
66.24 |
63.90 |
命令追従とチャット
ベンチマーク |
Tri-21B |
Qwen3-32B |
Gemma3-IT-27B |
IFEval |
80.75 |
86.08 |
80.78 |
koIFEval |
66.51 |
62.93 |
69.24 |
MT-Bench |
8.21 |
8.52 |
8.53 |
KO-MT-Bench |
7.79 |
8.47 |
8.46 |
systemIFEval |
77.40 |
77.92 |
77.94 |
ベースモデル評価
以下の表は、Tri-21Bベースモデル(命令調整前)の主要ベンチマークでのパフォーマンスを示しています。
ベンチマーク |
Tri-21Bベース |
MMLU |
76.99 |
KMMLU |
62.37 |
KoBEST |
85.07 |
BBH |
77.19 |
GSM8K |
70.36 |
MBPPPlus |
75.40 |
🔧 技術詳細
Tri-21Bは、RoPE、SwiGLU、RMSNorm、GQAを備えたTransformerデコーダーアーキテクチャを採用しています。このアーキテクチャは、推論能力や多言語対応などの機能を強化するために最適化されています。また、トレーニングデータセットの混合を変更し、数学的推論と日常的な使用に焦点を当てたRLトレーニングパイプラインを改善することで、モデルの性能を向上させています。
📄 ライセンス
このモデルリポジトリは、Trillion Licenseの下でライセンスされています。
制限事項
⚠️ 重要提示
このモデルは英語、韓国語、日本語に最適化されています。他の言語で使用すると、性能が低下する可能性があります。また、モデルの情報は2025年2月までに利用可能なデータに限定されています。
お問い合わせ
ご質問やお問い合わせは、info@trillionlabs.coまでお送りください。