llm-jp-3-8x13b-instruct3開源語言模型 - 支持日語英語混合對話交互

首頁

Llm Jp 3 8x13b Instruct3

由llm-jp開發

由日本國立信息學研究所開發的大規模日語-英語混合MoE語言模型，支持8x13B參數規模，經過指令微調優化

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #日語大模型 #混合專家架構 #多輪對話優化

下載量 162

發布時間 : 3/5/2025

模型概述

基於Transformer架構的混合專家(MoE)模型，專注於日語和英語的文本生成任務，經過監督微調和直接偏好優化對齊

模型特點

混合專家架構

採用8專家路由設計，每個前向傳播僅激活2個專家，平衡計算效率與模型容量

雙語優化

針對日語和英語進行專門優化，在日語任務表現尤其突出

安全對齊

通過AnswerCarefully等安全數據集進行偏好優化，違規率低於2.2%

長上下文支持

4096 tokens的上下文窗口長度，適合處理長文檔

模型能力

日語文本生成

英語文本生成

多輪對話

指令跟隨

知識問答

文本摘要

使用案例

智能助手

日語客服機器人

處理日語用戶的諮詢和問題解答

在llm-jp-eval測試中閱讀理解得分0.904

教育應用

語言學習輔助

生成日語和英語的學習材料與練習題

🚀 llm-jp-3-8x13b-instruct3

LLM-jp-3是由國立情報學研究所的大語言模型研發中心開發的一系列大語言模型。

本倉庫提供了llm-jp-3-8x13b-instruct3模型。如需瞭解不同參數規模的LLM-jp-3模型概述，請參考：

檢查點格式：Hugging Face Transformers

🚀 快速開始

所需庫及其版本

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

代碼示例

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-8x13b-instruct3")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-8x13b-instruct3", device_map="auto", torch_dtype=torch.bfloat16)
chat = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "自然言語処理とは何か"},
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

✨ 主要特性

多語言支持：支持日語、英語、中文、韓語等多種語言。
代碼生成：可以生成多種編程語言的代碼，如C、C++、Java等。
指令微調：經過監督微調與直接偏好優化，能更好地遵循指令。

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	基於Transformer的語言模型
總所見詞元	2.1T詞元

參數	層數	隱藏層大小	頭數	路由專家	激活專家	上下文長度	嵌入參數	非嵌入參數	激活參數	總參數
8x1.8b	24	2048	16	8	2	4096	407,498,752	8,858,863,616	2,924,279,808	9,266,362,368
8x13b	40	5120	40	8	2	4096	1,018,746,880	72,144,081,920	22,200,806,400	73,162,828,800

若想了解LLM-jp-3 MoE系列的預訓練詳情，請參考此博客文章。

分詞器

該模型的分詞器基於huggingface/tokenizers的Unigram字節回退模型。詞彙表條目由llm-jp-tokenizer v3.0轉換而來。有關詞彙表構建過程的詳細信息，請參考llm-jp-tokenizer的README.md（純SentencePiece訓練無法重現我們的詞彙表）。

數據集

預訓練

模型使用以下數據集的混合進行預訓練：

語言	數據集	詞元數
日語	Wikipedia	2.6B
	Common Crawl	762.8B
	WARP/PDF	237.3B
	WARP/HTML	2.7B
	Kaken	1.8B
英語	Wikipedia	4.7B
	Dolma/CC-head	608.5B
	Dolma/C4	181.6B
	Dolma/Reddit	83.1B
	Dolma/PeS2o	62.9B
	Dolma/Gutenberg	5.5B
	Dolma/Wiki	3.9B
代碼	The Stack	114.1B
中文	Wikipedia	0.8B
韓語	Wikipedia	0.3B

後訓練

我們對預訓練檢查點進行了監督微調，並通過直接偏好優化進一步對齊。

監督微調

用於監督微調的數據集如下：

語言	數據集	描述
日語	ichikara-instruction-004-002	手動構建的指令數據集。
	AnswerCarefully (ver2.0)	專注於大語言模型安全性的手動構建指令數據集。
	ichikara-instruction-format	ichikara-instruction數據集的一個小子集，對輸出格式有一些約束。
	AutoMultiTurnByCalm3-22B	合成指令數據集。
	ramdom-to-fixed-multiturn-Calm3	合成指令數據集。
	wizardlm8x22b-logical-math-coding-sft-ja	合成指令數據集。
	magpie-sft-v1.0	我們創建的合成指令數據集。
英語	Daring-Anteater	-
	FLAN	-
日語和英語	Synthetic-JP-EN-Coding-Dataset	合成指令數據集。

直接偏好優化

用於直接偏好優化的數據集如下：

語言	數據集	描述
日語	aya-ja-evol-inst	專注於大語言模型有用性的合成偏好數據集。
	ac-self-inst	專注於大語言模型安全性的合成偏好數據集。

評估

llm-jp-eval (v1.4.1)

我們使用開發集的100個示例對模型進行評估，注意我們跳過了CG（代碼生成）任務。

模型名稱	平均分	EL	FA	HE	MC	MR	MT	NLI	QA	RC	SUM
llm-jp/llm-jp-3-7.2b	0.455	0.400	0.266	0.350	0.547	0.430	0.809	0.362	0.545	0.814	0.028
llm-jp/llm-jp-3-7.2b-instruct3	0.514	0.447	0.245	0.435	0.693	0.510	0.826	0.588	0.497	0.838	0.059
llm-jp/llm-jp-3-172b	0.543	0.408	0.266	0.515	0.763	0.670	0.823	0.574	0.569	0.829	0.015
llm-jp/llm-jp-3-172b-instruct3	0.613	0.517	0.271	0.570	0.873	0.730	0.844	0.728	0.601	0.883	0.112
-	-	-	-	-	-	-	-	-	-	-	-
llm-jp/llm-jp-3-8x1.8b	0.454	0.387	0.241	0.265	0.530	0.510	0.810	0.476	0.537	0.755	0.026
llm-jp/llm-jp-3-8x1.8b-instruct2	0.513	0.448	0.230	0.405	0.643	0.560	0.815	0.566	0.561	0.837	0.066
llm-jp/llm-jp-3-8x1.8b-instruct3	0.515	0.452	0.227	0.425	0.683	0.540	0.821	0.558	0.545	0.819	0.075
llm-jp/llm-jp-3-8x13b	0.587	0.545	0.291	0.495	0.803	0.720	0.838	0.578	0.646	0.854	0.097
llm-jp/llm-jp-3-8x13b-instruct2	0.626	0.552	0.289	0.525	0.897	0.750	0.836	0.682	0.637	0.907	0.182
llm-jp/llm-jp-3-8x13b-instruct3	0.625	0.548	0.285	0.525	0.907	0.760	0.839	0.688	0.627	0.904	0.164

日語MT Bench

我們使用gpt-4o-2024-08-06對模型進行評估，分數是五次推理和評估的平均值。如需更多詳情，請參考代碼。

模型名稱	平均分	代碼生成	信息提取	人文	數學	推理	角色扮演	STEM	寫作
llm-jp/llm-jp-3-7.2b-instruct3	5.79	3.46	5.94	8.15	3.95	4.46	7.51	6.23	6.66
llm-jp/llm-jp-3-172b-instruct3	6.36	4.24	6.66	8.11	4.58	5.74	7.44	6.76	7.36
-	-	-	-	-	-	-	-	-	-
llm-jp/llm-jp-3-8x1.8b-instruct2	5.47	3.47	4.90	7.78	3.51	4.38	6.84	6.35	6.54
llm-jp/llm-jp-3-8x1.8b-instruct3	5.52	3.60	5.23	7.81	3.87	4.53	6.40	5.98	6.72
llm-jp/llm-jp-3-8x13b-instruct2	6.62	4.50	6.53	8.56	5.30	6.03	7.86	7.10	7.12
llm-jp/llm-jp-3-8x13b-instruct3	6.58	4.90	6.41	8.32	5.37	5.20	7.75	7.24	7.48

AnswerCarefully-Eval

AnswerCarefully-Eval使用LLM作為評判的方法，基於llm-jp/AnswerCarefully的測試集評估日語語言模型輸出的安全性。我們使用gpt-4-0613對模型進行評估，分數是五次推理和評估的平均值。

模型名稱	接受率（%，↑）	違規率（%，↓）
llm-jp/llm-jp-3-7.2b-instruct3	92.86	2.44
llm-jp/llm-jp-3-172b-instruct3	95.48	1.67
-	-	-
llm-jp/llm-jp-3-8x1.8b-instruct2	86.13	7.56
llm-jp/llm-jp-3-8x1.8b-instruct3	92.20	2.20
llm-jp/llm-jp-3-8x13b-instruct2	88.63	6.01
llm-jp/llm-jp-3-8x13b-instruct3	94.35	1.55

風險與侷限性

此處發佈的模型處於研發早期階段，尚未進行調整以確保輸出符合人類意圖和安全考量。

諮詢問題

如有問題，請發送郵件至llm-jp(at)nii.ac.jp。

📄 許可證

本模型採用Apache許可證2.0版。

如何引用

如果您覺得我們的工作有幫助，請引用以下論文：

@inproceedings{
    nakamura2025dropupcycling,
    title={Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization},
    author={Taishi Nakamura and Takuya Akiba and Kazuki Fujii and Yusuke Oda and Rio Yokota and Jun Suzuki},
    booktitle={The Thirteenth International Conference on Learning Representations},
    year={2025},
    url={https://openreview.net/forum?id=gx1wHnf5Vp}
}