Trillion 7B Preview
Trillion-7B預覽版是一款多語言大型語言模型,支持英語、韓語、日語和中文,在保持較低計算量的同時實現了與更高計算量模型競爭的性能。
下載量 6,864
發布時間 : 3/14/2025
模型概述
Trillion-7B預覽版是一款因果語言模型,經過預訓練和後訓練,採用RoPE、SwiGLU、RMSNorm的Transformer解碼器架構,參數量為77.6億,訓練token數達2萬億。
模型特點
高效計算
以顯著更少的計算量(約9.3×10²² FLOPs)實現了約66.5%的平均性能表現
多語言支持
在英語、韓語、日語和中文等多種語言上表現優異,尤其在韓語基準測試中展現出強勁性能
廣泛基準測試
在通用推理、知識召回、編程能力、數學推理和指令遵循能力等多個基準測試中表現優異
模型能力
多語言文本生成
通用推理
知識召回
編程能力
數學推理
指令遵循與對話
使用案例
對話系統
多語言聊天機器人
構建支持多種語言的智能聊天機器人
在韓語對話測試中表現優異
內容生成
笑話生成
生成幽默笑話和趣味內容
能夠生成符合文化背景的多語言笑話
教育輔助
多語言學習助手
幫助學生學習多種語言和文化知識
在知識召回測試中表現良好
🚀 Trillion-7B-preview
Trillion-7B-preview是一款最新的大語言模型預覽版,旨在突破多語言可擴展性和性能的界限。該模型在計算效率和性能表現上具有顯著優勢,能在多種語言任務中展現出色的效果。
模型信息展示
🚀 快速開始
以下是一個使用 apply_chat_template
的代碼片段,展示瞭如何加載分詞器和模型並生成文本。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "trillionlabs/Trillion-7B-preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Tell me a hilarious knock knock joke."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
model_inputs["input_ids"],
attention_mask=model_inputs["attention_mask"],
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
"""
Sure! Here's a classic knock-knock joke that's guaranteed to make you chuckle:
Knock, knock.
Who's there?
Lettuce.
Lettuce who?
Lettuce in, it's too cold out here!
"""
我們還支持 vLLM 集成。
vllm serve trillionlabs/Trillion-7B-preview --max-model-len 4096
✨ 主要特性
性能優勢
將 Trillion-7B-preview 與其他競爭模型在性能和訓練浮點運算次數(FLOPs)方面進行比較時,我們的模型推動了帕累託前沿,在使用顯著更少計算量(約 9.3×10²² FLOPs)的情況下,實現了約 66.5% 的平均性能。它優於 Mistral-7B-Instruct-v0.3 和 SOLAR-10.7B-Instruct-v1.0 等模型,同時與需要 3 - 8 倍計算量的模型(如 Qwen2.5-7B-Instruct 和 EXAONE-3.5-7.8B-Instruct)具有競爭力。完整的基準測試結果見下面的表格。
模型參數
屬性 | 詳情 |
---|---|
模型類型 | 因果語言模型 |
訓練階段 | 預訓練和後訓練 |
架構 | 帶有 RoPE、SwiGLU、RMSNorm 的 Transformer 解碼器 |
參數數量 | 77.6 億 |
層數 | 32 |
注意力頭數量 | 32 |
上下文長度 | 4096 |
所見令牌數量 | 2T |
詞彙表大小 | 128128 |
📚 詳細文檔
評估設置
我們選擇了廣泛的基準測試,以評估模型的通用推理、知識回憶、編碼能力、數學推理和指令遵循能力。我們將 Trillion-7B-preview 與幾個類似規模的領先大語言模型一起進行了評估。我們的模型在韓語基準測試中表現尤為出色。
完整評估設置
基準測試 | 語言 | 評估設置 | 指標 |
---|---|---|---|
通用推理和閱讀理解 | |||
• HellaSwag | 英語 | 0-shot | 準確率 |
• TruthfulQA_mc1 | 英語 | 6-shot | 準確率 |
• TruthfulQA_mc2 | 英語 | 6-shot | 準確率 |
• ARC:C | 英語 | 0-shot | 準確率 |
• HAERAE | 韓語 | 3-shot | 準確率 |
• KoBEST | 韓語 | 5-shot | 準確率 |
• BBH | 英語 | 0-shot, CoT | 準確率 |
• xwinograd_en | 英語 | 0-shot | 準確率 |
• xwinograd_jp | 日語 | 0-shot | 準確率 |
• xwinograd_zh | 中文 | 0-shot | 準確率 |
知識回憶 | |||
• KMMLU | 韓語 | 5-shot | 準確率 |
• MMLU | 英語 | 5-shot | 準確率 |
• Global-MMLU-Lite-en | 英語 | 5-shot | 準確率 |
• Global-MMLU-Lite-ko | 韓語 | 5-shot | 準確率 |
• Global-MMLU-Lite-ja | 日語 | 5-shot | 準確率 |
• Global-MMLU-Lite-zh | 中文 | 5-shot | 準確率 |
編碼 | |||
• HumanEval | 英語 | 0-shot, CoT | pass@1 |
• MBPP | 英語 | 0-shot, CoT | pass@1 |
數學推理 | |||
• GSM8k | 英語 | 0-shot, CoT | 精確匹配 |
• MATH | 英語 | 0-shot, CoT | 精確匹配 |
• GPQA | 英語 | 4-shot | 準確率 |
• HRM8k | 韓語 | 0-shot, CoT | 精確匹配 |
指令遵循和聊天 | |||
• IFEval | 英語 | 0-shot | 嚴格平均 |
• koIFEval* | 韓語 | 0-shot | 嚴格平均 |
• MT-Bench** | 英語 | LLM-as-a-judge (gpt-4o-2024-08-06) | LLM 分數 |
• KO-MT-Bench** | 韓語 | LLM-as-a-judge (gpt-4o-2024-08-06) | LLM 分數 |
• LogicKor** | 韓語 | LLM-as-a-judge (gpt-4o-2024-08-06) | LLM 分數 |
- *注意,koIFEval 是我們內部用於評估韓語指令遵循能力的評估基準。
- **注意,MT-Bench、KO-MT-Bench 和 LogicKor 使用 10 分制。
基準測試結果
- Trillion-7B-preview
- LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct
- google/gemma-2-9b-it
- meta-llama/Llama-3.1-8B-Instruct
- Qwen/Qwen2.5-7B-Instruct
- upstage/SOLAR-10.7B-Instruct-v1.0
- mistralai/Mistral-7B-Instruct-v0.3
通用推理和事實性
基準測試 | Trillion-7B-preview | EXAONE-3.5-7.8B-Instruct | gemma-2-9b-it | Llama-3.1-8B-Instruct | Qwen2.5-7B-Instruct | SOLAR-10.7B-Instruct-v1.0 | Mistral-7B-Instruct-v0.3 |
---|---|---|---|---|---|---|---|
HellaSwag | 58.94 | 60.04 | 59.72 | 59.81 | 61.97 | 68.72 | 65.79 |
TruthfulQA_mc1 | 36.10 | 40.64 | 42.96 | 38.07 | 47.74 | 56.18 | 42.47 |
TruthfulQA_mc2 | 54.10 | 59.74 | 60.09 | 54.54 | 64.72 | 70.64 | 59.41 |
ARC:C | 54.44 | 56.40 | 62.97 | 53.58 | 52.99 | 60.07 | 58.11 |
HAERAE | 80.02 | 76.08 | 68.01 | 63.15 | 65.17 | 60.86 | 47.75 |
KoBEST | 79.61 | 78.57 | 79.98 | 70.09 | 79.24 | 75.20 | 66.50 |
KMMLU | 48.09 | 45.39 | 46.66 | 41.41 | 50.15 | 41.66 | 33.59 |
MMLU | 63.52 | 65.65 | 72.24 | 68.32 | 74.23 | 65.20 | 61.84 |
Global-MMLU-Lite-en | 67.75 | 69.50 | 76.25 | 67.50 | 77.25 | 71.75 | 65.50 |
Global-MMLU-Lite-ko | 60.75 | 60.00 | 64.25 | 54.00 | 59.25 | 53.75 | 43.00 |
Global-MMLU-Lite-ja | 60.75 | 45.75 | 66.50 | 54.50 | 65.75 | 50.75 | 50.00 |
Global-MMLU-Lite-zh | 59.50 | 50.00 | 63.75 | 60.25 | 68.75 | 57.00 | 47.25 |
BBH | 41.94 | 53.30 | 28.77 | 43.16 | 53.68 | 52.91 | 45.09 |
xwinograd_en | 87.78 | 87.10 | 89.55 | 88.09 | 85.63 | 87.35 | 88.39 |
xwinograd_jp | 79.98 | 74.45 | 80.92 | 76.02 | 72.89 | 72.58 | 70.70 |
xwinograd_zh | 73.81 | 69.44 | 68.06 | 76.19 | 81.55 | 74.60 | 71.83 |
編碼
基準測試 | Trillion-7B-preview | EXAONE-3.5-7.8B-Instruct | gemma-2-9b-it | Llama-3.1-8B-Instruct | Qwen2.5-7B-Instruct | SOLAR-10.7B-Instruct-v1.0 | Mistral-7B-Instruct-v0.3 |
---|---|---|---|---|---|---|---|
HumanEval | 55.48 | 79.26 | 60.98 | 67.68 | 81.71 | 34.76 | 36.59 |
MBPP | 40.40 | 61.40 | 8.40 | 39.20 | 51.00 | 29.40 | 36.00 |
數學推理
基準測試 | Trillion-7B-preview | EXAONE-3.5-7.8B-Instruct | gemma-2-9b-it | Llama-3.1-8B-Instruct | Qwen2.5-7B-Instruct | SOLAR-10.7B-Instruct-v1.0 | Mistral-7B-Instruct-v0.3 |
---|---|---|---|---|---|---|---|
GSM8k | 72.25 | 87.79 | 73.69 | 74.98 | 88.86 | 62.93 | 35.94 |
MATH | 32.70 | 70.68 | - | 38.30 | 71.50 | 14.38 | 12.12 |
GPQA | 32.81 | 38.61 | 36.83 | 30.58 | 34.15 | 28.35 | 32.59 |
HRM8k | 30.10 | 38.99 | 16.04 | - | 41.51 | 20.68 | 7.89 |
指令遵循和聊天
基準測試 | Trillion-7B-preview | EXAONE-3.5-7.8B-Instruct | gemma-2-9b-it | Llama-3.1-8B-Instruct | Qwen2.5-7B-Instruct | SOLAR-10.7B-Instruct-v1.0 | Mistral-7B-Instruct-v0.3 |
---|---|---|---|---|---|---|---|
IFEval | 79.13 | 81.42 | 75.48 | 74.93 | 75.85 | 51.61 | 52.64 |
koIFEval | 66.58 | 54.65 | 43.30 | 36.07 | 48.55 | 26.12 | 34.22 |
MT-Bench | 7.00 | 8.15 | 7.81 | 6.32 | 7.86 | 6.76 | 6.84 |
KO-MT-Bench | 6.27 | 8.13 | 7.01 | 4.27 | 6.31 | 2.89 | 4.07 |
LogicKor | 8.14 | 9.25 | 8.33 | 6.45 | 7.99 | 1.85 | 4.76 |
🔧 技術細節
侷限性
- 語言支持:該模型針對英語、韓語、日語和中文進行了優化。使用其他語言可能會導致性能下降。
- 知識截止:模型的信息僅限於 2023 年 8 月之前可用的數據。
- 安全機制:此版本尚未包含全面的安全功能。未來更新將解決這一問題。
- 發佈狀態:這是一個初步發佈版本,計劃進行增強和更新。
📄 許可證
此模型倉庫遵循 Apache-2.0 許可證。
引用
@article{trillion7Bpreview,
title={Trillion-7B-preview},
author={trillionlabs},
year={2025},
url={https://huggingface.co/trillionlabs/Trillion-7B-preview}
}
@misc{han2025trillion7btechnicalreport,
title={Trillion 7B Technical Report},
author={Sungjun Han and Juyoung Suk and Suyeong An and Hyungguk Kim and Kyuseok Kim and Wonsuk Yang and Seungtaek Choi and Jamin Shin},
year={2025},
eprint={2504.15431},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.15431},
}
聯繫我們
如有疑問,請聯繫:info@trillionlabs.co
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98