Tri - 21Bオープンソース大規模言語モデル - 低トークンでの訓練により先進的な性能を実現、高効率で実用的な選択肢

ホーム

Tri 21B

trillionlabsによって開発

Tri-21Bは、2Tのトレーニングトークンのみを使用して最先端の性能を達成し、トレーニング効率の境界を再定義した旗艦級の大規模言語モデルです。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:その他 #効率的なトレーニング #多言語推論 #低リソースで高精度

ダウンロード数 223

リリース時間 : 7/19/2025

モデル概要

Tri-21Bは、推論能力に特化し、多言語をサポートし、複数のベンチマークテストで優れた性能を発揮する効率的な大規模言語モデルです。

モデル特徴

効率的なトレーニング

2Tのトークンのみを使用してトレーニングし、同類のモデルよりもはるかに少なく、複数のベンチマークテストで平均70.3%の正解率を達成します。

パレート境界の突破

2.95E+23 FLOPsのみで、2 - 10倍の計算リソースを必要とするモデルを上回る性能を発揮します。

推論能力の強化

トレーニングデータセットを最適化し、推論能力を特別に向上させました。

高度な事後トレーニング

強化学習のトレーニングプロセスを改善し、数学的推論と日常使用に特化しました。

多言語サポート

韓国語、英語、日本語に対して特別に最適化されています。

モデル能力

テキスト生成

質問応答システム

コード生成

数学的推論

多言語サポート

指令の遵守

使用事例

教育

複雑な概念の説明

量子計算などの複雑な概念を簡単な用語で説明する

MMLUベンチマークテストで77.62%の正解率を達成

プログラミング

コード生成

説明に基づいてコードを生成する

HumanEvalベンチマークテストで75.61%のpass@1を達成

数学

数学問題の解決

数学的推論問題を解く

GSM8kベンチマークテストで87.95%の正解率を達成

🚀 Tri-21B

Tri-21Bは、LLMトレーニングにおける効率の限界を再定義する、当社の主力大規模言語モデルです。わずか2Tのトレーニングトークンで最先端の性能を達成することで、卓越した機能を実現するために過度の計算リソースは必要ないことを実証しています。

🚀 クイックスタート

以下はapply_chat_templateを使用して、トークナイザーとモデルをロードし、テキストを生成する方法を示すコードスニペットです。

基本的な使用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "trillionlabs/Tri-21B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Explain the concept of quantum computing in simple terms."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

高度な使用法

Tri-21Bは、vLLM と SGLang でも利用可能です！

# vLLM
vllm serve trillionlabs/Tri-21B --dtype bfloat16 --max-model-len 8192

# vLLM with custom options
vllm serve trillionlabs/Tri-21B \
    --dtype bfloat16 \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.95 \
    --port 8000

# SGLang
python3 -m sglang.launch_server --model-path trillionlabs/Tri-21B --dtype bfloat16

# SGLang with custom options
python3 -m sglang.launch_server \
    --model-path trillionlabs/Tri-21B \
    --dtype bfloat16 \
    --context-length 8192 \
    --port 30000 \
    --host 0.0.0.0

✨ 主な機能

前代未聞のトレーニング効率：2Tのトークンでトレーニングされており、同等のモデルよりも大幅に少ないトークンで、MMLU/KMMLU/Global MMLUベンチマーク全体で70.3%の平均精度を達成しています。
パレートフロンティアの拡大：わずか2.95E+23 FLOPsで、2～10倍の計算量を必要とするモデルを上回り、効率的なスケーリングの新しい基準を設定しています。
強化された推論能力：推論能力を特に最適化するために、トレーニングデータセットの混合を変更しています。
高度な事後トレーニング：数学的推論と日常的な使用に焦点を当てたRLトレーニングパイプラインを大幅に改善しています。
多言語対応：韓国語、英語、日本語に特に最適化されています。

📦 インストール

このセクションでは、vLLMとSGLangを使用したTri-21Bのデプロイ方法を説明します。

vLLMを使用したデプロイ

# vLLM
vllm serve trillionlabs/Tri-21B --dtype bfloat16 --max-model-len 8192

# vLLM with custom options
vllm serve trillionlabs/Tri-21B \
    --dtype bfloat16 \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.95 \
    --port 8000

SGLangを使用したデプロイ

# SGLang
python3 -m sglang.launch_server --model-path trillionlabs/Tri-21B --dtype bfloat16

# SGLang with custom options
python3 -m sglang.launch_server \
    --model-path trillionlabs/Tri-21B \
    --dtype bfloat16 \
    --context-length 8192 \
    --port 30000 \
    --host 0.0.0.0

📚 ドキュメント

モデル仕様

属性	详情
モデルタイプ	因果言語モデル
トレーニング段階	事前トレーニングと事後トレーニング
アーキテクチャ	RoPE、SwiGLU、RMSNorm、GQAを備えたTransformerデコーダー
パラメータ数	20.73B
レイヤー数	32
アテンションヘッド数	32 (クエリ) / 8 (キー、バリュー)
コンテキスト長	8,192
見たトークン数	2T
語彙サイズ	124,416

トレーニング効率分析

当社のトレーニング効率に対するアプローチは、この分野で新しい基準を設定しています。以下の比較は、Tri-21Bが同規模の他の最先端モデルと比較して、FLOPあたりの優れたパフォーマンスを達成していることを示しています。

モデル	FLOPs	平均精度¹	効率比²
Tri-21B	2.95E+23	70.3%	1.00x (ベースライン)
Gemma2-9b	4.42E+23	61.5%	0.48x
Qwen2.5-7B	8.22E+23	63.4%	0.29x
Exaone-3.5-32B	1.25E+24	58.5%	0.19x
Gemma 3 IT 27B	2.27E+24	67.6%	0.11x
Qwen2.5-32B	3.46E+24	74.6%	0.10x
Qwen3-32B	5.77E+24	73.5%	0.06x

¹ MMLU / KMMLU / Global MMLU (ja)の平均
² Tri-21Bに対するFLOPあたりのパフォーマンス

この効率の突破により、組織は従来の計算上の障壁なしに最先端の言語モデルを展開することができ、高度なAI機能へのアクセスを民主化しています。

評価

Tri-21Bは、一般的な推論、知識の想起、コーディング能力、数学的推論、および命令追従能力を評価する包括的なベンチマークセットで評価されています。同規模の最先端モデルであるGemmma-3-IT-27BとQwen3-32Bと比較することで、その競争力のあるパフォーマンスを実証しています。

完全な評価設定

# ベンチマーク評価設定

ベンチマーク	言語	評価設定	指標
一般的な推論と事実性
• HellaSwag	英語	0-shot	精度
• ARC:C	英語	0-shot	精度
• HAERAE	韓国語	3-shot	精度
• CLIcK	韓国語	0-shot	精度
• KoBEST	韓国語	5-shot	精度
知識と推論
• KMMLU	韓国語	5-shot (0-shot, CoT)	精度 (完全一致)
• MMLU	英語	5-shot (0-shot, CoT)	精度 (完全一致)
• MMLU-Pro	英語	0-shot, CoT	完全一致
• Global-MMLU-Lite-ja	日本語	5-shot	精度
コーディング
• HumanEval	英語	0-shot	pass@1
• MBPPPlus	英語	0-shot	pass@1
数学的推論
• GSM8k	英語	0-shot, CoT	完全一致
• MATH	英語	0-shot, CoT	完全一致
• GPQA	英語	4-shot	精度
• GPQA Diamond	英語	0-shot, CoT	精度
• HRM8k	韓国語	0-shot, CoT	完全一致
命令追従とチャット
• IFEval	英語	0-shot	厳密平均
• koIFEval	韓国語	0-shot	厳密平均
• MT-Bench	英語	LLM-as-a-judge (gpt-4o)	LLMスコア
• KO-MT-Bench	韓国語	LLM-as-a-judge (gpt-4o)	LLMスコア
• systemIFEval	英語	0-shot	厳密平均

*注意: koIFEval、systemIFEval、KoRulerは、韓国語でのモデル能力をより適切に評価するために韓国語用に適応させた当社独自の評価ベンチマークです。
**注意: MT-Bench、KO-MT-Bench、LogicKorは10点満点で評価されます。

ベンチマーク結果

比較対象のモデル:

Tri-21B：当社の主力21Bパラメータモデル
Qwen3-32B：Qwenの32Bパラメータモデル
Gemma3-IT-27B：GoogleのGemma 3命令調整済み27Bモデル

一般的な推論と事実性

ベンチマーク	Tri-21B	Qwen3-32B	Gemma3-IT-27B
HAERAE	86.16	71.67	78.09
KoBEST	85.92	83.39	87.66
CLIcK	72.32	66.89	67.54
KMMLU	61.89 (69.90)	61.73 (67.55)	55.03 (60.61)
MMLU	77.62 (85.02)	81.86 (84.46)	77.42 (84.09)
MMLU-Pro	64.74	70.53	64.26
Global-MMLU-Lite-ja	70.25	77.00	72.00

コーディング

ベンチマーク	Tri-21B	Qwen3-32B	Gemma3-IT-27B
HumanEval	75.61	74.39	87.80
MBPPPlus	73.02	74.40	84.92

数学的推論

ベンチマーク	Tri-21B	Qwen3-32B	Gemma3-IT-27B
GSM8k	87.95	86.66	90.52
MATH	77.60	81.40	85.00
GPQA	39.73	41.07	37.95
GPQA-Diamond	44.95	54.04	44.44
HRM8k	56.70	66.24	63.90

命令追従とチャット

ベンチマーク	Tri-21B	Qwen3-32B	Gemma3-IT-27B
IFEval	80.75	86.08	80.78
koIFEval	66.51	62.93	69.24
MT-Bench	8.21	8.52	8.53
KO-MT-Bench	7.79	8.47	8.46
systemIFEval	77.40	77.92	77.94

ベースモデル評価

以下の表は、Tri-21Bベースモデル（命令調整前）の主要ベンチマークでのパフォーマンスを示しています。

ベンチマーク	Tri-21Bベース
MMLU	76.99
KMMLU	62.37
KoBEST	85.07
BBH	77.19
GSM8K	70.36
MBPPPlus	75.40

🔧 技術詳細

Tri-21Bは、RoPE、SwiGLU、RMSNorm、GQAを備えたTransformerデコーダーアーキテクチャを採用しています。このアーキテクチャは、推論能力や多言語対応などの機能を強化するために最適化されています。また、トレーニングデータセットの混合を変更し、数学的推論と日常的な使用に焦点を当てたRLトレーニングパイプラインを改善することで、モデルの性能を向上させています。

📄 ライセンス

このモデルリポジトリは、Trillion Licenseの下でライセンスされています。

制限事項

⚠️ 重要提示

このモデルは英語、韓国語、日本語に最適化されています。他の言語で使用すると、性能が低下する可能性があります。また、モデルの情報は2025年2月までに利用可能なデータに限定されています。

お問い合わせ

ご質問やお問い合わせは、info@trillionlabs.coまでお送りください。

Tri 21B

モデル紹介

コンテンツ詳細

代替品

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Tri-21B

🚀 クイックスタート

基本的な使用法

高度な使用法

✨ 主な機能

📦 インストール

vLLMを使用したデプロイ

SGLangを使用したデプロイ

📚 ドキュメント

モデル仕様

トレーニング効率分析

評価

ベンチマーク結果

一般的な推論と事実性

コーディング

数学的推論

命令追従とチャット

ベースモデル評価

🔧 技術詳細

📄 ライセンス

制限事項

お問い合わせ

おすすめAIモデル