模型概述
模型特點
模型能力
使用案例
🚀 llm-jp-3-8x13b-instruct3
LLM-jp-3是由國立情報學研究所的大語言模型研發中心開發的一系列大語言模型。
本倉庫提供了llm-jp-3-8x13b-instruct3模型。如需瞭解不同參數規模的LLM-jp-3模型概述,請參考:
檢查點格式:Hugging Face Transformers
🚀 快速開始
所需庫及其版本
- torch>=2.3.0
- transformers>=4.40.1
- tokenizers>=0.19.1
- accelerate>=0.29.3
- flash-attn>=2.5.8
代碼示例
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-8x13b-instruct3")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3-8x13b-instruct3", device_map="auto", torch_dtype=torch.bfloat16)
chat = [
{"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
{"role": "user", "content": "自然言語処理とは何か"},
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
repetition_penalty=1.05,
)[0]
print(tokenizer.decode(output))
✨ 主要特性
- 多語言支持:支持日語、英語、中文、韓語等多種語言。
- 代碼生成:可以生成多種編程語言的代碼,如C、C++、Java等。
- 指令微調:經過監督微調與直接偏好優化,能更好地遵循指令。
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | 基於Transformer的語言模型 |
總所見詞元 | 2.1T詞元 |
參數 | 層數 | 隱藏層大小 | 頭數 | 路由專家 | 激活專家 | 上下文長度 | 嵌入參數 | 非嵌入參數 | 激活參數 | 總參數 |
---|---|---|---|---|---|---|---|---|---|---|
8x1.8b | 24 | 2048 | 16 | 8 | 2 | 4096 | 407,498,752 | 8,858,863,616 | 2,924,279,808 | 9,266,362,368 |
8x13b | 40 | 5120 | 40 | 8 | 2 | 4096 | 1,018,746,880 | 72,144,081,920 | 22,200,806,400 | 73,162,828,800 |
若想了解LLM-jp-3 MoE系列的預訓練詳情,請參考此博客文章。
分詞器
該模型的分詞器基於huggingface/tokenizers的Unigram字節回退模型。詞彙表條目由llm-jp-tokenizer v3.0
轉換而來。有關詞彙表構建過程的詳細信息,請參考llm-jp-tokenizer
的README.md(純SentencePiece訓練無法重現我們的詞彙表)。
數據集
預訓練
模型使用以下數據集的混合進行預訓練:
語言 | 數據集 | 詞元數 |
---|---|---|
日語 | Wikipedia | 2.6B |
Common Crawl | 762.8B | |
WARP/PDF | 237.3B | |
WARP/HTML | 2.7B | |
Kaken | 1.8B | |
英語 | Wikipedia | 4.7B |
Dolma/CC-head | 608.5B | |
Dolma/C4 | 181.6B | |
Dolma/Reddit | 83.1B | |
Dolma/PeS2o | 62.9B | |
Dolma/Gutenberg | 5.5B | |
Dolma/Wiki | 3.9B | |
代碼 | The Stack | 114.1B |
中文 | Wikipedia | 0.8B |
韓語 | Wikipedia | 0.3B |
後訓練
我們對預訓練檢查點進行了監督微調,並通過直接偏好優化進一步對齊。
監督微調
用於監督微調的數據集如下:
語言 | 數據集 | 描述 |
---|---|---|
日語 | ichikara-instruction-004-002 | 手動構建的指令數據集。 |
AnswerCarefully (ver2.0) | 專注於大語言模型安全性的手動構建指令數據集。 | |
ichikara-instruction-format | ichikara-instruction數據集的一個小子集,對輸出格式有一些約束。 | |
AutoMultiTurnByCalm3-22B | 合成指令數據集。 | |
ramdom-to-fixed-multiturn-Calm3 | 合成指令數據集。 | |
wizardlm8x22b-logical-math-coding-sft-ja | 合成指令數據集。 | |
magpie-sft-v1.0 | 我們創建的合成指令數據集。 | |
英語 | Daring-Anteater | - |
FLAN | - | |
日語和英語 | Synthetic-JP-EN-Coding-Dataset | 合成指令數據集。 |
直接偏好優化
用於直接偏好優化的數據集如下:
語言 | 數據集 | 描述 |
---|---|---|
日語 | aya-ja-evol-inst | 專注於大語言模型有用性的合成偏好數據集。 |
ac-self-inst | 專注於大語言模型安全性的合成偏好數據集。 |
評估
llm-jp-eval (v1.4.1)
我們使用開發集的100個示例對模型進行評估,注意我們跳過了CG(代碼生成)任務。
模型名稱 | 平均分 | EL | FA | HE | MC | MR | MT | NLI | QA | RC | SUM |
---|---|---|---|---|---|---|---|---|---|---|---|
llm-jp/llm-jp-3-7.2b | 0.455 | 0.400 | 0.266 | 0.350 | 0.547 | 0.430 | 0.809 | 0.362 | 0.545 | 0.814 | 0.028 |
llm-jp/llm-jp-3-7.2b-instruct3 | 0.514 | 0.447 | 0.245 | 0.435 | 0.693 | 0.510 | 0.826 | 0.588 | 0.497 | 0.838 | 0.059 |
llm-jp/llm-jp-3-172b | 0.543 | 0.408 | 0.266 | 0.515 | 0.763 | 0.670 | 0.823 | 0.574 | 0.569 | 0.829 | 0.015 |
llm-jp/llm-jp-3-172b-instruct3 | 0.613 | 0.517 | 0.271 | 0.570 | 0.873 | 0.730 | 0.844 | 0.728 | 0.601 | 0.883 | 0.112 |
- | - | - | - | - | - | - | - | - | - | - | - |
llm-jp/llm-jp-3-8x1.8b | 0.454 | 0.387 | 0.241 | 0.265 | 0.530 | 0.510 | 0.810 | 0.476 | 0.537 | 0.755 | 0.026 |
llm-jp/llm-jp-3-8x1.8b-instruct2 | 0.513 | 0.448 | 0.230 | 0.405 | 0.643 | 0.560 | 0.815 | 0.566 | 0.561 | 0.837 | 0.066 |
llm-jp/llm-jp-3-8x1.8b-instruct3 | 0.515 | 0.452 | 0.227 | 0.425 | 0.683 | 0.540 | 0.821 | 0.558 | 0.545 | 0.819 | 0.075 |
llm-jp/llm-jp-3-8x13b | 0.587 | 0.545 | 0.291 | 0.495 | 0.803 | 0.720 | 0.838 | 0.578 | 0.646 | 0.854 | 0.097 |
llm-jp/llm-jp-3-8x13b-instruct2 | 0.626 | 0.552 | 0.289 | 0.525 | 0.897 | 0.750 | 0.836 | 0.682 | 0.637 | 0.907 | 0.182 |
llm-jp/llm-jp-3-8x13b-instruct3 | 0.625 | 0.548 | 0.285 | 0.525 | 0.907 | 0.760 | 0.839 | 0.688 | 0.627 | 0.904 | 0.164 |
日語MT Bench
我們使用gpt-4o-2024-08-06
對模型進行評估,分數是五次推理和評估的平均值。如需更多詳情,請參考代碼。
模型名稱 | 平均分 | 代碼生成 | 信息提取 | 人文 | 數學 | 推理 | 角色扮演 | STEM | 寫作 |
---|---|---|---|---|---|---|---|---|---|
llm-jp/llm-jp-3-7.2b-instruct3 | 5.79 | 3.46 | 5.94 | 8.15 | 3.95 | 4.46 | 7.51 | 6.23 | 6.66 |
llm-jp/llm-jp-3-172b-instruct3 | 6.36 | 4.24 | 6.66 | 8.11 | 4.58 | 5.74 | 7.44 | 6.76 | 7.36 |
- | - | - | - | - | - | - | - | - | - |
llm-jp/llm-jp-3-8x1.8b-instruct2 | 5.47 | 3.47 | 4.90 | 7.78 | 3.51 | 4.38 | 6.84 | 6.35 | 6.54 |
llm-jp/llm-jp-3-8x1.8b-instruct3 | 5.52 | 3.60 | 5.23 | 7.81 | 3.87 | 4.53 | 6.40 | 5.98 | 6.72 |
llm-jp/llm-jp-3-8x13b-instruct2 | 6.62 | 4.50 | 6.53 | 8.56 | 5.30 | 6.03 | 7.86 | 7.10 | 7.12 |
llm-jp/llm-jp-3-8x13b-instruct3 | 6.58 | 4.90 | 6.41 | 8.32 | 5.37 | 5.20 | 7.75 | 7.24 | 7.48 |
AnswerCarefully-Eval
AnswerCarefully-Eval使用LLM作為評判的方法,基於llm-jp/AnswerCarefully的測試集評估日語語言模型輸出的安全性。我們使用gpt-4-0613
對模型進行評估,分數是五次推理和評估的平均值。
模型名稱 | 接受率(%,↑) | 違規率(%,↓) |
---|---|---|
llm-jp/llm-jp-3-7.2b-instruct3 | 92.86 | 2.44 |
llm-jp/llm-jp-3-172b-instruct3 | 95.48 | 1.67 |
- | - | - |
llm-jp/llm-jp-3-8x1.8b-instruct2 | 86.13 | 7.56 |
llm-jp/llm-jp-3-8x1.8b-instruct3 | 92.20 | 2.20 |
llm-jp/llm-jp-3-8x13b-instruct2 | 88.63 | 6.01 |
llm-jp/llm-jp-3-8x13b-instruct3 | 94.35 | 1.55 |
風險與侷限性
此處發佈的模型處於研發早期階段,尚未進行調整以確保輸出符合人類意圖和安全考量。
諮詢問題
如有問題,請發送郵件至llm-jp(at)nii.ac.jp。
📄 許可證
本模型採用Apache許可證2.0版。
如何引用
如果您覺得我們的工作有幫助,請引用以下論文:
@inproceedings{
nakamura2025dropupcycling,
title={Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization},
author={Taishi Nakamura and Takuya Akiba and Kazuki Fujii and Yusuke Oda and Rio Yokota and Jun Suzuki},
booktitle={The Thirteenth International Conference on Learning Representations},
year={2025},
url={https://openreview.net/forum?id=gx1wHnf5Vp}
}
模型卡片作者
姓名按字母順序排列。
Hirokazu Kiyomaru、Takashi Kodama和Taishi Nakamura。



