モデル概要
モデル特徴
モデル能力
使用事例
🚀 Trillion-7B-preview
Trillion-7B-previewは、多言語の拡張性とパフォーマンスの限界を押し広げるように設計された最新の大規模言語モデルのプレビュー版です。このモデルは、多言語環境での高い性能を発揮し、多くの競合モデルを上回る結果を示しています。
🚀 クイックスタート
以下はapply_chat_template
を使用して、トークナイザーとモデルをロードし、テキストを生成するコードスニペットです。
基本的な使用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "trillionlabs/Trillion-7B-preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Tell me a hilarious knock knock joke."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
model_inputs["input_ids"],
attention_mask=model_inputs["attention_mask"],
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
"""
Sure! Here's a classic knock-knock joke that's guaranteed to make you chuckle:
Knock, knock.
Who's there?
Lettuce.
Lettuce who?
Lettuce in, it's too cold out here!
"""
また、vLLMとの統合もサポートしています。
vllm serve trillionlabs/Trillion-7B-preview --max-model-len 4096
✨ 主な機能
Trillion-7B-previewは、多言語の性能と拡張性に特化した大規模言語モデルです。以下に主な機能を示します。
- 高いパフォーマンス:多くの競合モデルを上回る平均性能を達成しています。
- 多言語対応:英語、韓国語、日本語、中国語に最適化されています。
- 柔軟なアーキテクチャ:Transformer Decoderをベースに、RoPE、SwiGLU、RMSNormを採用しています。
モデル情報
属性 | 详情 |
---|---|
モデルタイプ | 因果言語モデル |
トレーニング段階 | 事前学習と事後学習 |
アーキテクチャ | RoPE、SwiGLU、RMSNormを備えたTransformer Decoder |
パラメータ数 | 77.6億 |
レイヤー数 | 32 |
アテンションヘッド数 | 32 |
コンテキスト長 | 4,096 |
見たトークン数 | 2T |
語彙サイズ | 128,128 |
📚 ドキュメント
モデルの紹介
Trillion-7B-previewは、多言語の拡張性とパフォーマンスの限界を押し広げるように設計された最新の大規模言語モデルのプレビュー版です。このモデルは、論文 Trillion-7B-preview で発表されています。
モデルの性能をトレーニングFLOPsと比較すると、Trillion-7B-previewはパレートフロンティアを押し広げ、約66.5%の平均性能を達成しながら、大幅に少ないコンピューティングリソース(約9.3×10²² FLOPs)を使用しています。Mistral-7B-Instruct-v0.3やSOLAR-10.7B-Instruct-v1.0などのモデルを上回り、Qwen2.5-7B-InstructやEXAONE-3.5-7.8B-Instructなどの3 - 8倍のコンピューティングリソースを必要とするモデルとも競争力を持っています。完全なベンチマーク結果については、以下の表を参照してください。
評価
様々なベンチマークを選択し、一般的な推論、知識の想起、コーディング能力、数学的推論、命令の追従能力を評価しました。Trillion-7B-previewをいくつかの同規模の主要な大規模言語モデルとともに評価しました。このモデルは、特に韓国語のベンチマークで強い性能を示しています。
完全な評価設定
ベンチマーク | 言語 | 評価設定 | 指標 |
---|---|---|---|
一般的な推論と読解力 | |||
• HellaSwag | 英語 | 0-shot | 正解率 |
• TruthfulQA_mc1 | 英語 | 6-shot | 正解率 |
• TruthfulQA_mc2 | 英語 | 6-shot | 正解率 |
• ARC:C | 英語 | 0-shot | 正解率 |
• HAERAE | 韓国語 | 3-shot | 正解率 |
• KoBEST | 韓国語 | 5-shot | 正解率 |
• BBH | 英語 | 0-shot, CoT | 正解率 |
• xwinograd_en | 英語 | 0-shot | 正解率 |
• xwinograd_jp | 日本語 | 0-shot | 正解率 |
• xwinograd_zh | 中国語 | 0-shot | 正解率 |
知識の想起 | |||
• KMMLU | 韓国語 | 5-shot | 正解率 |
• MMLU | 英語 | 5-shot | 正解率 |
• Global-MMLU-Lite-en | 英語 | 5-shot | 正解率 |
• Global-MMLU-Lite-ko | 韓国語 | 5-shot | 正解率 |
• Global-MMLU-Lite-ja | 日本語 | 5-shot | 正解率 |
• Global-MMLU-Lite-zh | 中国語 | 5-shot | 正解率 |
コーディング | |||
• HumanEval | 英語 | 0-shot, CoT | pass@1 |
• MBPP | 英語 | 0-shot, CoT | pass@1 |
数学的推論 | |||
• GSM8k | 英語 | 0-shot, CoT | 完全一致率 |
• MATH | 英語 | 0-shot, CoT | 完全一致率 |
• GPQA | 英語 | 4-shot | 正解率 |
• HRM8k | 韓国語 | 0-shot, CoT | 完全一致率 |
命令の追従とチャット | |||
• IFEval | 英語 | 0-shot | 厳密平均 |
• koIFEval* | 韓国語 | 0-shot | 厳密平均 |
• MT-Bench** | 英語 | LLM-as-a-judge (gpt-4o-2024-08-06) | LLMスコア |
• KO-MT-Bench** | 韓国語 | LLM-as-a-judge (gpt-4o-2024-08-06) | LLMスコア |
• LogicKor** | 韓国語 | LLM-as-a-judge (gpt-4o-2024-08-06) | LLMスコア |
- *koIFEvalは、韓国語での命令追従能力を評価するための社内評価ベンチマークです。
- **MT-Bench、KO-MT-Bench、LogicKorは10点満点のスケールを使用しています。
ベンチマーク結果
- Trillion-7B-preview
- LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct
- google/gemma-2-9b-it
- meta-llama/Llama-3.1-8B-Instruct
- Qwen/Qwen2.5-7B-Instruct
- upstage/SOLAR-10.7B-Instruct-v1.0
- mistralai/Mistral-7B-Instruct-v0.3
一般的な推論と事実性
ベンチマーク | Trillion-7B-preview | EXAONE-3.5-7.8B-Instruct | gemma-2-9b-it | Llama-3.1-8B-Instruct | Qwen2.5-7B-Instruct | SOLAR-10.7B-Instruct-v1.0 | Mistral-7B-Instruct-v0.3 |
---|---|---|---|---|---|---|---|
HellaSwag | 58.94 | 60.04 | 59.72 | 59.81 | 61.97 | 68.72 | 65.79 |
TruthfulQA_mc1 | 36.10 | 40.64 | 42.96 | 38.07 | 47.74 | 56.18 | 42.47 |
TruthfulQA_mc2 | 54.10 | 59.74 | 60.09 | 54.54 | 64.72 | 70.64 | 59.41 |
ARC:C | 54.44 | 56.40 | 62.97 | 53.58 | 52.99 | 60.07 | 58.11 |
HAERAE | 80.02 | 76.08 | 68.01 | 63.15 | 65.17 | 60.86 | 47.75 |
KoBEST | 79.61 | 78.57 | 79.98 | 70.09 | 79.24 | 75.20 | 66.50 |
KMMLU | 48.09 | 45.39 | 46.66 | 41.41 | 50.15 | 41.66 | 33.59 |
MMLU | 63.52 | 65.65 | 72.24 | 68.32 | 74.23 | 65.20 | 61.84 |
Global-MMLU-Lite-en | 67.75 | 69.50 | 76.25 | 67.50 | 77.25 | 71.75 | 65.50 |
Global-MMLU-Lite-ko | 60.75 | 60.00 | 64.25 | 54.00 | 59.25 | 53.75 | 43.00 |
Global-MMLU-Lite-ja | 60.75 | 45.75 | 66.50 | 54.50 | 65.75 | 50.75 | 50.00 |
Global-MMLU-Lite-zh | 59.50 | 50.00 | 63.75 | 60.25 | 68.75 | 57.00 | 47.25 |
BBH | 41.94 | 53.30 | 28.77 | 43.16 | 53.68 | 52.91 | 45.09 |
xwinograd_en | 87.78 | 87.10 | 89.55 | 88.09 | 85.63 | 87.35 | 88.39 |
xwinograd_jp | 79.98 | 74.45 | 80.92 | 76.02 | 72.89 | 72.58 | 70.70 |
xwinograd_zh | 73.81 | 69.44 | 68.06 | 76.19 | 81.55 | 74.60 | 71.83 |
コーディング
ベンチマーク | Trillion-7B-preview | EXAONE-3.5-7.8B-Instruct | gemma-2-9b-it | Llama-3.1-8B-Instruct | Qwen2.5-7B-Instruct | SOLAR-10.7B-Instruct-v1.0 | Mistral-7B-Instruct-v0.3 |
---|---|---|---|---|---|---|---|
HumanEval | 55.48 | 79.26 | 60.98 | 67.68 | 81.71 | 34.76 | 36.59 |
MBPP | 40.40 | 61.40 | 8.40 | 39.20 | 51.00 | 29.40 | 36.00 |
数学的推論
ベンチマーク | Trillion-7B-preview | EXAONE-3.5-7.8B-Instruct | gemma-2-9b-it | Llama-3.1-8B-Instruct | Qwen2.5-7B-Instruct | SOLAR-10.7B-Instruct-v1.0 | Mistral-7B-Instruct-v0.3 |
---|---|---|---|---|---|---|---|
GSM8k | 72.25 | 87.79 | 73.69 | 74.98 | 88.86 | 62.93 | 35.94 |
MATH | 32.70 | 70.68 | - | 38.30 | 71.50 | 14.38 | 12.12 |
GPQA | 32.81 | 38.61 | 36.83 | 30.58 | 34.15 | 28.35 | 32.59 |
HRM8k | 30.10 | 38.99 | 16.04 | - | 41.51 | 20.68 | 7.89 |
命令の追従とチャット
ベンチマーク | Trillion-7B-preview | EXAONE-3.5-7.8B-Instruct | gemma-2-9b-it | Llama-3.1-8B-Instruct | Qwen2.5-7B-Instruct | SOLAR-10.7B-Instruct-v1.0 | Mistral-7B-Instruct-v0.3 |
---|---|---|---|---|---|---|---|
IFEval | 79.13 | 81.42 | 75.48 | 74.93 | 75.85 | 51.61 | 52.64 |
koIFEval | 66.58 | 54.65 | 43.30 | 36.07 | 48.55 | 26.12 | 34.22 |
MT-Bench | 7.00 | 8.15 | 7.81 | 6.32 | 7.86 | 6.76 | 6.84 |
KO-MT-Bench | 6.27 | 8.13 | 7.01 | 4.27 | 6.31 | 2.89 | 4.07 |
LogicKor | 8.14 | 9.25 | 8.33 | 6.45 | 7.99 | 1.85 | 4.76 |
制限事項
⚠️ 重要提示
このモデルにはいくつかの制限があります。使用する際には、以下の点に注意してください。
- 言語サポート:モデルは英語、韓国語、日本語、中国語に最適化されています。他の言語での使用は性能が低下する可能性があります。
- 知識の期限:モデルの情報は2023年8月までのデータに限定されています。
- セーフティ機構:このリリースにはまだ包括的なセーフティ機能が含まれていません。将来のアップデートでこの問題を解決する予定です。
- リリース状況:これは予備リリース版であり、今後の機能拡張とアップデートが予定されています。
📄 ライセンス
このモデルのリポジトリは、Apache-2.0ライセンスの下で提供されています。
引用
@article{trillion7Bpreview,
title={Trillion-7B-preview},
author={trillionlabs},
year={2025},
url={https://huggingface.co/trillionlabs/Trillion-7B-preview}
}
@misc{han2025trillion7btechnicalreport,
title={Trillion 7B Technical Report},
author={Sungjun Han and Juyoung Suk and Suyeong An and Hyungguk Kim and Kyuseok Kim and Wonsuk Yang and Seungtaek Choi and Jamin Shin},
year={2025},
eprint={2504.15431},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.15431},
}
お問い合わせ
ご質問やお問い合わせは、info@trillionlabs.coにお寄せください。



