llm-jp-3-8x13b-instruct3开源语言模型 - 支持日语英语混合对话交互

首页

Llm Jp 3 8x13b Instruct3

由 llm-jp 开发

由日本国立信息学研究所开发的大规模日语-英语混合MoE语言模型，支持8x13B参数规模，经过指令微调优化

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #日语大模型 #混合专家架构 #多轮对话优化

下载量 162

发布时间 : 3/5/2025

模型简介

基于Transformer架构的混合专家(MoE)模型，专注于日语和英语的文本生成任务，经过监督微调和直接偏好优化对齐

模型特点

混合专家架构

采用8专家路由设计，每个前向传播仅激活2个专家，平衡计算效率与模型容量

双语优化

针对日语和英语进行专门优化，在日语任务表现尤其突出

安全对齐

通过AnswerCarefully等安全数据集进行偏好优化，违规率低于2.2%

长上下文支持

4096 tokens的上下文窗口长度，适合处理长文档

模型能力

日语文本生成

英语文本生成

多轮对话

指令跟随

知识问答

文本摘要

使用案例

智能助手

日语客服机器人

处理日语用户的咨询和问题解答

在llm-jp-eval测试中阅读理解得分0.904

教育应用

语言学习辅助

生成日语和英语的学习材料与练习题

🚀 llm-jp-3-8x13b-instruct3

LLM-jp-3是由国立情报学研究所的大语言模型研发中心开发的一系列大语言模型。

本仓库提供了llm-jp-3-8x13b-instruct3模型。如需了解不同参数规模的LLM-jp-3模型概述，请参考：

检查点格式：Hugging Face Transformers

🚀 快速开始

所需库及其版本

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

代码示例

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-8x13b-instruct3")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-8x13b-instruct3", device_map="auto", torch_dtype=torch.bfloat16)
chat = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "自然言語処理とは何か"},
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

✨ 主要特性

多语言支持：支持日语、英语、中文、韩语等多种语言。
代码生成：可以生成多种编程语言的代码，如C、C++、Java等。
指令微调：经过监督微调与直接偏好优化，能更好地遵循指令。

📚 详细文档

模型详情

属性	详情
模型类型	基于Transformer的语言模型
总所见词元	2.1T词元

参数	层数	隐藏层大小	头数	路由专家	激活专家	上下文长度	嵌入参数	非嵌入参数	激活参数	总参数
8x1.8b	24	2048	16	8	2	4096	407,498,752	8,858,863,616	2,924,279,808	9,266,362,368
8x13b	40	5120	40	8	2	4096	1,018,746,880	72,144,081,920	22,200,806,400	73,162,828,800

若想了解LLM-jp-3 MoE系列的预训练详情，请参考此博客文章。

分词器

该模型的分词器基于huggingface/tokenizers的Unigram字节回退模型。词汇表条目由llm-jp-tokenizer v3.0转换而来。有关词汇表构建过程的详细信息，请参考llm-jp-tokenizer的README.md（纯SentencePiece训练无法重现我们的词汇表）。

数据集

预训练

模型使用以下数据集的混合进行预训练：

语言	数据集	词元数
日语	Wikipedia	2.6B
	Common Crawl	762.8B
	WARP/PDF	237.3B
	WARP/HTML	2.7B
	Kaken	1.8B
英语	Wikipedia	4.7B
	Dolma/CC-head	608.5B
	Dolma/C4	181.6B
	Dolma/Reddit	83.1B
	Dolma/PeS2o	62.9B
	Dolma/Gutenberg	5.5B
	Dolma/Wiki	3.9B
代码	The Stack	114.1B
中文	Wikipedia	0.8B
韩语	Wikipedia	0.3B

后训练

我们对预训练检查点进行了监督微调，并通过直接偏好优化进一步对齐。

监督微调

用于监督微调的数据集如下：

语言	数据集	描述
日语	ichikara-instruction-004-002	手动构建的指令数据集。
	AnswerCarefully (ver2.0)	专注于大语言模型安全性的手动构建指令数据集。
	ichikara-instruction-format	ichikara-instruction数据集的一个小子集，对输出格式有一些约束。
	AutoMultiTurnByCalm3-22B	合成指令数据集。
	ramdom-to-fixed-multiturn-Calm3	合成指令数据集。
	wizardlm8x22b-logical-math-coding-sft-ja	合成指令数据集。
	magpie-sft-v1.0	我们创建的合成指令数据集。
英语	Daring-Anteater	-
	FLAN	-
日语和英语	Synthetic-JP-EN-Coding-Dataset	合成指令数据集。

直接偏好优化

用于直接偏好优化的数据集如下：

语言	数据集	描述
日语	aya-ja-evol-inst	专注于大语言模型有用性的合成偏好数据集。
	ac-self-inst	专注于大语言模型安全性的合成偏好数据集。

评估

llm-jp-eval (v1.4.1)

我们使用开发集的100个示例对模型进行评估，注意我们跳过了CG（代码生成）任务。

模型名称	平均分	EL	FA	HE	MC	MR	MT	NLI	QA	RC	SUM
llm-jp/llm-jp-3-7.2b	0.455	0.400	0.266	0.350	0.547	0.430	0.809	0.362	0.545	0.814	0.028
llm-jp/llm-jp-3-7.2b-instruct3	0.514	0.447	0.245	0.435	0.693	0.510	0.826	0.588	0.497	0.838	0.059
llm-jp/llm-jp-3-172b	0.543	0.408	0.266	0.515	0.763	0.670	0.823	0.574	0.569	0.829	0.015
llm-jp/llm-jp-3-172b-instruct3	0.613	0.517	0.271	0.570	0.873	0.730	0.844	0.728	0.601	0.883	0.112
-	-	-	-	-	-	-	-	-	-	-	-
llm-jp/llm-jp-3-8x1.8b	0.454	0.387	0.241	0.265	0.530	0.510	0.810	0.476	0.537	0.755	0.026
llm-jp/llm-jp-3-8x1.8b-instruct2	0.513	0.448	0.230	0.405	0.643	0.560	0.815	0.566	0.561	0.837	0.066
llm-jp/llm-jp-3-8x1.8b-instruct3	0.515	0.452	0.227	0.425	0.683	0.540	0.821	0.558	0.545	0.819	0.075
llm-jp/llm-jp-3-8x13b	0.587	0.545	0.291	0.495	0.803	0.720	0.838	0.578	0.646	0.854	0.097
llm-jp/llm-jp-3-8x13b-instruct2	0.626	0.552	0.289	0.525	0.897	0.750	0.836	0.682	0.637	0.907	0.182
llm-jp/llm-jp-3-8x13b-instruct3	0.625	0.548	0.285	0.525	0.907	0.760	0.839	0.688	0.627	0.904	0.164

日语MT Bench

我们使用gpt-4o-2024-08-06对模型进行评估，分数是五次推理和评估的平均值。如需更多详情，请参考代码。

模型名称	平均分	代码生成	信息提取	人文	数学	推理	角色扮演	STEM	写作
llm-jp/llm-jp-3-7.2b-instruct3	5.79	3.46	5.94	8.15	3.95	4.46	7.51	6.23	6.66
llm-jp/llm-jp-3-172b-instruct3	6.36	4.24	6.66	8.11	4.58	5.74	7.44	6.76	7.36
-	-	-	-	-	-	-	-	-	-
llm-jp/llm-jp-3-8x1.8b-instruct2	5.47	3.47	4.90	7.78	3.51	4.38	6.84	6.35	6.54
llm-jp/llm-jp-3-8x1.8b-instruct3	5.52	3.60	5.23	7.81	3.87	4.53	6.40	5.98	6.72
llm-jp/llm-jp-3-8x13b-instruct2	6.62	4.50	6.53	8.56	5.30	6.03	7.86	7.10	7.12
llm-jp/llm-jp-3-8x13b-instruct3	6.58	4.90	6.41	8.32	5.37	5.20	7.75	7.24	7.48

AnswerCarefully-Eval

AnswerCarefully-Eval使用LLM作为评判的方法，基于llm-jp/AnswerCarefully的测试集评估日语语言模型输出的安全性。我们使用gpt-4-0613对模型进行评估，分数是五次推理和评估的平均值。

模型名称	接受率（%，↑）	违规率（%，↓）
llm-jp/llm-jp-3-7.2b-instruct3	92.86	2.44
llm-jp/llm-jp-3-172b-instruct3	95.48	1.67
-	-	-
llm-jp/llm-jp-3-8x1.8b-instruct2	86.13	7.56
llm-jp/llm-jp-3-8x1.8b-instruct3	92.20	2.20
llm-jp/llm-jp-3-8x13b-instruct2	88.63	6.01
llm-jp/llm-jp-3-8x13b-instruct3	94.35	1.55

风险与局限性

此处发布的模型处于研发早期阶段，尚未进行调整以确保输出符合人类意图和安全考量。

咨询问题

如有问题，请发送邮件至llm-jp(at)nii.ac.jp。

📄 许可证

本模型采用Apache许可证2.0版。

如何引用

如果您觉得我们的工作有帮助，请引用以下论文：

@inproceedings{
    nakamura2025dropupcycling,
    title={Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization},
    author={Taishi Nakamura and Takuya Akiba and Kazuki Fujii and Yusuke Oda and Rio Yokota and Jun Suzuki},
    booktitle={The Thirteenth International Conference on Learning Representations},
    year={2025},
    url={https://openreview.net/forum?id=gx1wHnf5Vp}
}