🚀 Trillion-7B-preview
我々は、多言語の拡張性とパフォーマンスの限界を破るために設計された最新の大規模言語モデルのプレビュー版、Trillion-7B-previewを紹介します。このモデルは、トレーニングに必要なFLOPsに対するパフォーマンスのバランスにおいて、競合モデルを上回り、少ない計算資源で高いパフォーマンスを達成します。
🚀 クイックスタート
以下は、apply_chat_template
を使用してトークナイザーとモデルをロードし、テキストを生成するコードスニペットです。
基本的な使用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "trillionlabs/Trillion-7B-preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Tell me a hilarious knock knock joke."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
model_inputs["input_ids"],
attention_mask=model_inputs["attention_mask"],
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
"""
Sure! Here's a classic knock-knock joke that's guaranteed to make you chuckle:
Knock, knock.
Who's there?
Lettuce.
Lettuce who?
Lettuce in, it's too cold out here!
"""
✨ 主な機能
Trillion-7B-previewは、多言語の拡張性とパフォーマンスに特化した大規模言語モデルです。トレーニングに必要なFLOPsに対するパフォーマンスのバランスにおいて、競合モデルを上回り、少ない計算資源で高いパフォーマンスを達成します。
- タイプ: 因果言語モデル
- トレーニング段階: 事前トレーニングと事後トレーニング
- アーキテクチャ: RoPE、SwiGLU、RMSNormを備えたTransformerデコーダー
- パラメータ数: 77.6億
- レイヤー数: 32
- アテンションヘッド数: 32
- コンテキスト長: 4,096
- 見たトークン数: 2T
- 語彙サイズ: 128,128
📚 ドキュメント
評価
我々は、一般的な推論、知識の想起、コーディング能力、数学的推論、および指示に従う能力を評価する幅広いベンチマークを選択しました。Trillion-7B-previewをいくつかの同規模の主要な大規模言語モデルとともに評価しました。当モデルは、特に韓国語のベンチマークで強いパフォーマンスを示します。
完全な評価設定
ベンチマーク |
言語 |
評価設定 |
指標 |
一般的な推論と読解力 |
|
|
|
• HellaSwag |
英語 |
0-shot |
正解率 |
• TruthfulQA_mc1 |
英語 |
6-shot |
正解率 |
• TruthfulQA_mc2 |
英語 |
6-shot |
正解率 |
• ARC:C |
英語 |
0-shot |
正解率 |
• HAERAE |
韓国語 |
3-shot |
正解率 |
• KoBEST |
韓国語 |
5-shot |
正解率 |
• BBH |
英語 |
0-shot, CoT |
正解率 |
• xwinograd_en |
英語 |
0-shot |
正解率 |
• xwinograd_jp |
日本語 |
0-shot |
正解率 |
• xwinograd_zh |
中国語 |
0-shot |
正解率 |
知識の想起 |
|
|
|
• KMMLU |
韓国語 |
5-shot |
正解率 |
• MMLU |
英語 |
5-shot |
正解率 |
• Global-MMLU-Lite-en |
英語 |
5-shot |
正解率 |
• Global-MMLU-Lite-ko |
韓国語 |
5-shot |
正解率 |
• Global-MMLU-Lite-ja |
日本語 |
5-shot |
正解率 |
• Global-MMLU-Lite-zh |
中国語 |
5-shot |
正解率 |
コーディング |
|
|
|
• HumanEval |
英語 |
0-shot, CoT |
pass@1 |
• MBPP |
英語 |
0-shot, CoT |
pass@1 |
数学的推論 |
|
|
|
• GSM8k |
英語 |
0-shot, CoT |
完全一致率 |
• MATH |
英語 |
0-shot, CoT |
完全一致率 |
• GPQA |
英語 |
4-shot |
正解率 |
• HRM8k |
韓国語 |
0-shot, CoT |
完全一致率 |
指示に従う能力とチャット |
|
|
|
• IFEval |
英語 |
0-shot |
厳密平均 |
• koIFEval* |
韓国語 |
0-shot |
厳密平均 |
• MT-Bench** |
英語 |
LLM-as-a-judge (gpt-4o-2024-08-06) |
LLMスコア |
• KO-MT-Bench** |
韓国語 |
LLM-as-a-judge (gpt-4o-2024-08-06) |
LLMスコア |
• LogicKor** |
韓国語 |
LLM-as-a-judge (gpt-4o-2024-08-06) |
LLMスコア |
- *koIFEvalは、韓国語での指示に従う能力を評価するための社内評価ベンチマークです。
- **MT-Bench、KO-MT-Bench、およびLogicKorは10点満点のスケールを使用しています。
ベンチマーク結果
一般的な推論と事実性
ベンチマーク |
Trillion-7B-preview |
EXAONE-3.5-7.8B-Instruct |
gemma-2-9b-it |
Llama-3.1-8B-Instruct |
Qwen2.5-7B-Instruct |
SOLAR-10.7B-Instruct-v1.0 |
Mistral-7B-Instruct-v0.3 |
HellaSwag |
58.94 |
60.04 |
59.72 |
59.81 |
61.97 |
68.72 |
65.79 |
TruthfulQA_mc1 |
36.10 |
40.64 |
42.96 |
38.07 |
47.74 |
56.18 |
42.47 |
TruthfulQA_mc2 |
54.10 |
59.74 |
60.09 |
54.54 |
64.72 |
70.64 |
59.41 |
ARC:C |
54.44 |
56.40 |
62.97 |
53.58 |
52.99 |
60.07 |
58.11 |
HAERAE |
80.02 |
76.08 |
68.01 |
63.15 |
65.17 |
60.86 |
47.75 |
KoBEST |
79.61 |
78.57 |
79.98 |
70.09 |
79.24 |
75.20 |
66.50 |
KMMLU |
48.09 |
45.39 |
46.66 |
41.41 |
50.15 |
41.66 |
33.59 |
MMLU |
63.52 |
65.65 |
72.24 |
68.32 |
74.23 |
65.20 |
61.84 |
Global-MMLU-Lite-en |
67.75 |
69.50 |
76.25 |
67.50 |
77.25 |
71.75 |
65.50 |
Global-MMLU-Lite-ko |
60.75 |
60.00 |
64.25 |
54.00 |
59.25 |
53.75 |
43.00 |
Global-MMLU-Lite-ja |
60.75 |
45.75 |
66.50 |
54.50 |
65.75 |
50.75 |
50.00 |
Global-MMLU-Lite-zh |
59.50 |
50.00 |
63.75 |
60.25 |
68.75 |
57.00 |
47.25 |
BBH |
41.94 |
53.30 |
28.77 |
43.16 |
53.68 |
52.91 |
45.09 |
xwinograd_en |
87.78 |
87.10 |
89.55 |
88.09 |
85.63 |
87.35 |
88.39 |
xwinograd_jp |
79.98 |
74.45 |
80.92 |
76.02 |
72.89 |
72.58 |
70.70 |
xwinograd_zh |
73.81 |
69.44 |
68.06 |
76.19 |
81.55 |
74.60 |
71.83 |
コーディング
ベンチマーク |
Trillion-7B-preview |
EXAONE-3.5-7.8B-Instruct |
gemma-2-9b-it |
Llama-3.1-8B-Instruct |
Qwen2.5-7B-Instruct |
SOLAR-10.7B-Instruct-v1.0 |
Mistral-7B-Instruct-v0.3 |
HumanEval |
55.48 |
79.26 |
60.98 |
67.68 |
81.71 |
34.76 |
36.59 |
MBPP |
40.40 |
61.40 |
8.40 |
39.20 |
51.00 |
29.40 |
36.00 |
数学的推論
ベンチマーク |
Trillion-7B-preview |
EXAONE-3.5-7.8B-Instruct |
gemma-2-9b-it |
Llama-3.1-8B-Instruct |
Qwen2.5-7B-Instruct |
SOLAR-10.7B-Instruct-v1.0 |
Mistral-7B-Instruct-v0.3 |
GSM8k |
72.25 |
87.79 |
73.69 |
74.98 |
88.86 |
62.93 |
35.94 |
MATH |
32.70 |
70.68 |
- |
38.30 |
71.50 |
14.38 |
12.12 |
GPQA |
32.81 |
38.61 |
36.83 |
30.58 |
34.15 |
28.35 |
32.59 |
HRM8k |
30.10 |
38.99 |
16.04 |
- |
41.51 |
20.68 |
7.89 |
指示に従う能力とチャット
ベンチマーク |
Trillion-7B-preview |
EXAONE-3.5-7.8B-Instruct |
gemma-2-9b-it |
Llama-3.1-8B-Instruct |
Qwen2.5-7B-Instruct |
SOLAR-10.7B-Instruct-v1.0 |
Mistral-7B-Instruct-v0.3 |
IFEval |
79.13 |
81.42 |
75.48 |
74.93 |
75.85 |
51.61 |
52.64 |
koIFEval |
66.58 |
54.65 |
43.30 |
36.07 |
48.55 |
26.12 |
34.22 |
MT-Bench |
7.00 |
8.15 |
7.81 |
6.32 |
7.86 |
6.76 |
6.84 |
KO-MT-Bench |
6.27 |
8.13 |
7.01 |
4.27 |
6.31 |
2.89 |
4.07 |
LogicKor |
8.14 |
9.25 |
8.33 |
6.45 |
7.99 |
1.85 |
4.76 |
🔧 技術詳細
Trillion-7B-previewは、多言語の拡張性とパフォーマンスを向上させるために設計された大規模言語モデルです。トレーニングに必要なFLOPsに対するパフォーマンスのバランスにおいて、競合モデルを上回り、少ない計算資源で高いパフォーマンスを達成します。
📄 ライセンス
このモデルのリポジトリは、Apache-2.0ライセンスの下で提供されています。
引用
@article{trillion7Bpreview,
title={Trillion-7B-preview},
author={trillionlabs},
year={2025},
url={https://huggingface.co/trillionlabs/Trillion-7B-preview}
}
問い合わせ
問い合わせは、info@trillionlabs.coにお寄せください。