LLM-jp-3.1-13b-instruct4オープンソース大規模言語モデル - 多言語対応、指令追従能力が強い

ホーム

Llm Jp 3.1 13b Instruct4

llm-jpによって開発

LLM-jp-3.1-13b-instruct4は日本国立情報学研究所によって開発された大規模言語モデルで、指令事前学習により指令遵守能力が大幅に向上し、日本語や英語などの複数の言語をサポートしています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #日本語指令最適化 #多言語対応 #高パラメータ規模

ダウンロード数 176

リリース時間 : 5/23/2025

モデル概要

このモデルはTransformerアーキテクチャに基づく大規模言語モデルで、指令事前学習、教師付き微調整、直接嗜好最適化などの技術を通じて、指令遵守能力とセキュリティ性を向上させています。

モデル特徴

指令遵守能力が強い

学習中期の指令事前学習により、モデルの指令遵守能力が大幅に向上しました。

多言語対応

日本語、英語などの複数の言語をサポートし、異言語処理能力を備えています。

セキュリティ最適化

直接嗜好最適化などの技術を通じて、モデル出力のセキュリティ性を向上させました。

モデル能力

テキスト生成

指令遵守

多言語処理

コード生成

使用事例

自然言語処理

日本語質問応答システム

日本語質問応答システムの構築に使用し、ユーザーの自然言語処理に関する質問に回答します。

MT Benchの日本語評価では7.37点を獲得しました。

英語テキスト生成

高品質の英語テキストを生成し、コンテンツ作成や翻訳支援に適しています。

MT Benchの英語評価では7.01点を獲得しました。

セキュリティアプリケーション

セキュリティ対応生成

セキュリティ規範に合致した応答を生成し、違反内容を避けます。

AnswerCarefully-Evalでの受容率は82.4%、違反率は12.2%です。

🚀 llm-jp-3.1-13b-instruct4

LLM-jp-3.1は、国立情報学研究所の大規模言語モデル研究開発センターによって開発された一連の大規模言語モデルです。 LLM-jp-3シリーズをベースに、LLM-jp-3.1モデルはミッドトレーニング（命令事前学習）を組み込んでおり、元のLLM-jp-3モデルと比較して命令に沿った応答能力が大幅に向上しています。このリポジトリでは、llm-jp-3.1-13b-instruct4モデルを提供しています。様々なパラメータサイズのLLM-jp-3.1モデルの概要については、以下を参照してください。

LLM-jp-3.1 事前学習済みモデル
LLM-jp-3.1 微調整済みモデル学習手順や評価結果の詳細については、このブログ記事（日本語）を参照してください。チェックポイントの形式：Hugging Face Transformers

🚀 クイックスタート

必要なライブラリとそのバージョン

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

使い方

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3.1-13b-instruct4")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3.1-13b-instruct4", device_map="auto", torch_dtype=torch.bfloat16)
chat = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "自然言語処理とは何か"},
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

✨ 主な機能

このモデルは、大規模言語モデルLLM-jp-3.1シリーズの一つで、命令事前学習により命令に沿った応答能力が向上しています。また、多言語のデータセットを用いて学習されており、様々な言語に対応しています。

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	Transformerベースの言語モデル
アーキテクチャ	- 密モデル：

トークナイザー

このモデルのトークナイザーは、huggingface/tokenizersのUnigram byte-fallbackモデルに基づいています。語彙エントリは、llm-jp-tokenizer v3.0から変換されています。語彙構築手順の詳細については、llm-jp-tokenizerのREADME.mdを参照してください（純粋なSentencePieceトレーニングでは、この語彙を再現できません）。

データセット

事前学習

モデルは、以下のデータセットの混合を使用して事前学習されています。

言語	データセット	トークン数
日本語	Wikipedia	2.6B
	Common Crawl	762.8B
	WARP/PDF	237.3B
	WARP/HTML	2.7B
	Kaken	1.8B
英語	Wikipedia	4.7B
	Dolma/CC-head	608.5B
	Dolma/C4	181.6B
	Dolma/Reddit	83.1B
	Dolma/PeS2o	62.9B
	Dolma/Gutenberg	5.5B
	Dolma/Wiki	3.9B
コード	The Stack	114.1B
中国語	Wikipedia	0.8B
韓国語	Wikipedia	0.3B

ミッドトレーニング

LLM-jp-3.1シリーズでは、命令事前学習に基づいて継続的な事前学習を行っています。命令事前学習は、大量の命令と応答のペアで事前学習を続けることで、モデルが命令に沿った応答を生成する能力を向上させます。約90Bトークンの命令と応答のデータを用意し、事前学習データセットと混合して、合計400Bトークンで継続的な事前学習を行いました。各モデルは、既存のチェックポイント（llm-jp/llm-jp-3-1.8b、llm-jp/llm-jp-3-13b、およびllm-jp/llm-jp-3-8x13b）から初期化され、継続的な命令事前学習を行いました。 LLM-jp-3シリーズは元々2.1Tトークンで事前学習されていたため、合計の事前学習トークン数は2.5Tトークンになります。この学習プロセスの詳細は、今後公開される論文で明らかにされます。この学習に使用された命令と応答のデータセットも公開される予定です。

事後学習

事前学習済みのチェックポイントを教師あり微調整で微調整し、さらに直接嗜好最適化（Direct Preference Optimization）で調整しています。

教師あり微調整

教師あり微調整に使用されるデータセットは以下の通りです。

言語	データセット	説明
日本語	ichikara-instruction-004-002	手動で構築された命令データセット。
	AnswerCarefully (ver2.0)	LLMの安全性に焦点を当てた手動で構築された命令データセット。
	ichikara-instruction-format	ichikara-instructionデータセットの小さなサブセットで、出力形式にいくつかの制約を加えて編集されています。
	AutoMultiTurnByCalm3-22B	合成命令データセット。
	ramdom-to-fixed-multiturn-Calm3	合成命令データセット。
	wizardlm8x22b-logical-math-coding-sft-ja	合成命令データセット。
	magpie-sft-v1.0	自作の合成命令データセット。
	jaster v1.4.1	-
	extraction-wiki-ja	自作の合成命令データセット。
英語	Daring-Anteater	-
日本語と英語	Synthetic-JP-EN-Coding-Dataset	合成命令データセット。

直接嗜好最適化

直接嗜好最適化（DPO）には、棄却サンプリングを採用しています。教師あり微調整で使用されたデータセットからプロンプトをサンプリングし、各プロンプトに対して複数の応答を生成します。これらの応答は、Qwen/Qwen2.5-32B-Instructによってスコア付けされ、高スコアの応答を正例、低スコアの応答を負例としてDPOを行います。 DPOは2段階で行われます。 2段階目では、安全性に焦点を当てた日本語の嗜好データセットであるac-self-instを追加で使用しています。

評価

MT Bench（日本語と英語）

モデルはgpt-4o-2024-08-06を使用して評価されました。スコアは、3回の推論と評価から得られた平均値を表しています。詳細については、コードを参照してください。

モデル名	JA	EN
gpt-35-turbo-1106	6.48	7.56
gpt-4-0613	7.29	7.72
gpt-4o-2024-08-06	8.10	8.38
sbintuitions/sarashina2.2-1b-instruct-v0.1	5.30	5.66
sbintuitions/sarashina2.2-3b-instruct-v0.1	7.07	6.96
Rakuten/RakutenAI-2.0-8x7B-instruct	6.68	6.33
cyberagent/calm3-22b-chat	6.86	6.77
Qwen/Qwen2.5-14B-Instruct	7.07	7.99
Qwen/Qwen2.5-32B-Instruct	7.64	8.27
Qwen/Qwen3-1.7B	5.46	6.95
Qwen/Qwen3-14B	8.00	8.30
Qwen/Qwen3-32B	8.36	8.33
tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4	7.64	8.02
stockmark/Stockmark-2-100B-Instruct-beta	7.42	7.17
llm-jp-3-1.8b-instruct3	4.64	4.09
llm-jp-3-13b-instruct3	6.21	6.13
llm-jp-3-8x13b-instruct3	6.60	6.49
llm-jp-3.1-1.8b-instruct4	6.30	5.70
llm-jp-3.1-13b-instruct4	7.37	7.01
llm-jp-3.1-8x13b-instruct4	7.50	7.05

AnswerCarefully-Eval

AnswerCarefully-Evalは、llm-jp/AnswerCarefullyのテストセットに基づいて、LLM-as-a-Judgeアプローチを使用して日本語モデル出力の安全性を評価します。モデルはgpt-4o-2024-08-06を使用して評価されました。スコアは、3回の推論と評価から得られた平均値を表しています。詳細については、コードを参照してください。

モデル名	スコア	受容率（%、↑）	違反率（%、↓）
gpt-35-turbo-1106	3.98	71.7	12.6
gpt-4-0613	4.06	72.3	13.2
gpt-4o-2024-08-06	4.09	72.7	12.5
llm-jp-3-1.8b-instruct3	4.03	75.9	12.2
llm-jp-3-13b-instruct3	4.37	88.4	6.5
llm-jp-3-8x13b-instruct3	4.48	91.6	4.3
llm-jp-3.1-1.8b-instruct4	3.66	64.7	24.3
llm-jp-3.1-13b-instruct4	4.17	82.4	12.2
llm-jp-3.1-8x13b-instruct4	4.26	83.1	11.6