模型简介
模型特点
模型能力
使用案例
🚀 llm-jp-3-8x13b-instruct3
LLM-jp-3是由国立情报学研究所的大语言模型研发中心开发的一系列大语言模型。
本仓库提供了llm-jp-3-8x13b-instruct3模型。如需了解不同参数规模的LLM-jp-3模型概述,请参考:
检查点格式:Hugging Face Transformers
🚀 快速开始
所需库及其版本
- torch>=2.3.0
- transformers>=4.40.1
- tokenizers>=0.19.1
- accelerate>=0.29.3
- flash-attn>=2.5.8
代码示例
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-8x13b-instruct3")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-8x13b-instruct3", device_map="auto", torch_dtype=torch.bfloat16)
chat = [
{"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
{"role": "user", "content": "自然言語処理とは何か"},
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
repetition_penalty=1.05,
)[0]
print(tokenizer.decode(output))
✨ 主要特性
- 多语言支持:支持日语、英语、中文、韩语等多种语言。
- 代码生成:可以生成多种编程语言的代码,如C、C++、Java等。
- 指令微调:经过监督微调与直接偏好优化,能更好地遵循指令。
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型类型 | 基于Transformer的语言模型 |
总所见词元 | 2.1T词元 |
参数 | 层数 | 隐藏层大小 | 头数 | 路由专家 | 激活专家 | 上下文长度 | 嵌入参数 | 非嵌入参数 | 激活参数 | 总参数 |
---|---|---|---|---|---|---|---|---|---|---|
8x1.8b | 24 | 2048 | 16 | 8 | 2 | 4096 | 407,498,752 | 8,858,863,616 | 2,924,279,808 | 9,266,362,368 |
8x13b | 40 | 5120 | 40 | 8 | 2 | 4096 | 1,018,746,880 | 72,144,081,920 | 22,200,806,400 | 73,162,828,800 |
若想了解LLM-jp-3 MoE系列的预训练详情,请参考此博客文章。
分词器
该模型的分词器基于huggingface/tokenizers的Unigram字节回退模型。词汇表条目由llm-jp-tokenizer v3.0
转换而来。有关词汇表构建过程的详细信息,请参考llm-jp-tokenizer
的README.md(纯SentencePiece训练无法重现我们的词汇表)。
数据集
预训练
模型使用以下数据集的混合进行预训练:
语言 | 数据集 | 词元数 |
---|---|---|
日语 | Wikipedia | 2.6B |
Common Crawl | 762.8B | |
WARP/PDF | 237.3B | |
WARP/HTML | 2.7B | |
Kaken | 1.8B | |
英语 | Wikipedia | 4.7B |
Dolma/CC-head | 608.5B | |
Dolma/C4 | 181.6B | |
Dolma/Reddit | 83.1B | |
Dolma/PeS2o | 62.9B | |
Dolma/Gutenberg | 5.5B | |
Dolma/Wiki | 3.9B | |
代码 | The Stack | 114.1B |
中文 | Wikipedia | 0.8B |
韩语 | Wikipedia | 0.3B |
后训练
我们对预训练检查点进行了监督微调,并通过直接偏好优化进一步对齐。
监督微调
用于监督微调的数据集如下:
语言 | 数据集 | 描述 |
---|---|---|
日语 | ichikara-instruction-004-002 | 手动构建的指令数据集。 |
AnswerCarefully (ver2.0) | 专注于大语言模型安全性的手动构建指令数据集。 | |
ichikara-instruction-format | ichikara-instruction数据集的一个小子集,对输出格式有一些约束。 | |
AutoMultiTurnByCalm3-22B | 合成指令数据集。 | |
ramdom-to-fixed-multiturn-Calm3 | 合成指令数据集。 | |
wizardlm8x22b-logical-math-coding-sft-ja | 合成指令数据集。 | |
magpie-sft-v1.0 | 我们创建的合成指令数据集。 | |
英语 | Daring-Anteater | - |
FLAN | - | |
日语和英语 | Synthetic-JP-EN-Coding-Dataset | 合成指令数据集。 |
直接偏好优化
用于直接偏好优化的数据集如下:
语言 | 数据集 | 描述 |
---|---|---|
日语 | aya-ja-evol-inst | 专注于大语言模型有用性的合成偏好数据集。 |
ac-self-inst | 专注于大语言模型安全性的合成偏好数据集。 |
评估
llm-jp-eval (v1.4.1)
我们使用开发集的100个示例对模型进行评估,注意我们跳过了CG(代码生成)任务。
模型名称 | 平均分 | EL | FA | HE | MC | MR | MT | NLI | QA | RC | SUM |
---|---|---|---|---|---|---|---|---|---|---|---|
llm-jp/llm-jp-3-7.2b | 0.455 | 0.400 | 0.266 | 0.350 | 0.547 | 0.430 | 0.809 | 0.362 | 0.545 | 0.814 | 0.028 |
llm-jp/llm-jp-3-7.2b-instruct3 | 0.514 | 0.447 | 0.245 | 0.435 | 0.693 | 0.510 | 0.826 | 0.588 | 0.497 | 0.838 | 0.059 |
llm-jp/llm-jp-3-172b | 0.543 | 0.408 | 0.266 | 0.515 | 0.763 | 0.670 | 0.823 | 0.574 | 0.569 | 0.829 | 0.015 |
llm-jp/llm-jp-3-172b-instruct3 | 0.613 | 0.517 | 0.271 | 0.570 | 0.873 | 0.730 | 0.844 | 0.728 | 0.601 | 0.883 | 0.112 |
- | - | - | - | - | - | - | - | - | - | - | - |
llm-jp/llm-jp-3-8x1.8b | 0.454 | 0.387 | 0.241 | 0.265 | 0.530 | 0.510 | 0.810 | 0.476 | 0.537 | 0.755 | 0.026 |
llm-jp/llm-jp-3-8x1.8b-instruct2 | 0.513 | 0.448 | 0.230 | 0.405 | 0.643 | 0.560 | 0.815 | 0.566 | 0.561 | 0.837 | 0.066 |
llm-jp/llm-jp-3-8x1.8b-instruct3 | 0.515 | 0.452 | 0.227 | 0.425 | 0.683 | 0.540 | 0.821 | 0.558 | 0.545 | 0.819 | 0.075 |
llm-jp/llm-jp-3-8x13b | 0.587 | 0.545 | 0.291 | 0.495 | 0.803 | 0.720 | 0.838 | 0.578 | 0.646 | 0.854 | 0.097 |
llm-jp/llm-jp-3-8x13b-instruct2 | 0.626 | 0.552 | 0.289 | 0.525 | 0.897 | 0.750 | 0.836 | 0.682 | 0.637 | 0.907 | 0.182 |
llm-jp/llm-jp-3-8x13b-instruct3 | 0.625 | 0.548 | 0.285 | 0.525 | 0.907 | 0.760 | 0.839 | 0.688 | 0.627 | 0.904 | 0.164 |
日语MT Bench
我们使用gpt-4o-2024-08-06
对模型进行评估,分数是五次推理和评估的平均值。如需更多详情,请参考代码。
模型名称 | 平均分 | 代码生成 | 信息提取 | 人文 | 数学 | 推理 | 角色扮演 | STEM | 写作 |
---|---|---|---|---|---|---|---|---|---|
llm-jp/llm-jp-3-7.2b-instruct3 | 5.79 | 3.46 | 5.94 | 8.15 | 3.95 | 4.46 | 7.51 | 6.23 | 6.66 |
llm-jp/llm-jp-3-172b-instruct3 | 6.36 | 4.24 | 6.66 | 8.11 | 4.58 | 5.74 | 7.44 | 6.76 | 7.36 |
- | - | - | - | - | - | - | - | - | - |
llm-jp/llm-jp-3-8x1.8b-instruct2 | 5.47 | 3.47 | 4.90 | 7.78 | 3.51 | 4.38 | 6.84 | 6.35 | 6.54 |
llm-jp/llm-jp-3-8x1.8b-instruct3 | 5.52 | 3.60 | 5.23 | 7.81 | 3.87 | 4.53 | 6.40 | 5.98 | 6.72 |
llm-jp/llm-jp-3-8x13b-instruct2 | 6.62 | 4.50 | 6.53 | 8.56 | 5.30 | 6.03 | 7.86 | 7.10 | 7.12 |
llm-jp/llm-jp-3-8x13b-instruct3 | 6.58 | 4.90 | 6.41 | 8.32 | 5.37 | 5.20 | 7.75 | 7.24 | 7.48 |
AnswerCarefully-Eval
AnswerCarefully-Eval使用LLM作为评判的方法,基于llm-jp/AnswerCarefully的测试集评估日语语言模型输出的安全性。我们使用gpt-4-0613
对模型进行评估,分数是五次推理和评估的平均值。
模型名称 | 接受率(%,↑) | 违规率(%,↓) |
---|---|---|
llm-jp/llm-jp-3-7.2b-instruct3 | 92.86 | 2.44 |
llm-jp/llm-jp-3-172b-instruct3 | 95.48 | 1.67 |
- | - | - |
llm-jp/llm-jp-3-8x1.8b-instruct2 | 86.13 | 7.56 |
llm-jp/llm-jp-3-8x1.8b-instruct3 | 92.20 | 2.20 |
llm-jp/llm-jp-3-8x13b-instruct2 | 88.63 | 6.01 |
llm-jp/llm-jp-3-8x13b-instruct3 | 94.35 | 1.55 |
风险与局限性
此处发布的模型处于研发早期阶段,尚未进行调整以确保输出符合人类意图和安全考量。
咨询问题
如有问题,请发送邮件至llm-jp(at)nii.ac.jp。
📄 许可证
本模型采用Apache许可证2.0版。
如何引用
如果您觉得我们的工作有帮助,请引用以下论文:
@inproceedings{
nakamura2025dropupcycling,
title={Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization},
author={Taishi Nakamura and Takuya Akiba and Kazuki Fujii and Yusuke Oda and Rio Yokota and Jun Suzuki},
booktitle={The Thirteenth International Conference on Learning Representations},
year={2025},
url={https://openreview.net/forum?id=gx1wHnf5Vp}
}
模型卡片作者
姓名按字母顺序排列。
Hirokazu Kiyomaru、Takashi Kodama和Taishi Nakamura。



