llm-jp-3.1-1.8b-instruct4オープンソース大規模言語モデル - 無料でデプロイし、指示に正確に従ったコミュニケーションを実現

ホーム

Llm Jp 3.1 1.8b Instruct4

llm-jpによって開発

日本国立情報学研究所によって開発された大規模言語モデルで、LLM-jp-3をベースに構築され、指令事前学習技術を通じて指令に従う能力が大幅に向上しています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #日本語指令最適化 #多言語処理 #効率的な推論

ダウンロード数 165

リリース時間 : 5/27/2025

モデル概要

LLM-jp-3.1シリーズのモデルはTransformerベースの言語モデルで、日本語、英語、中国語、韓国語などの多言語処理をサポートし、強力な指令遵守能力を備えています。

モデル特徴

指令遵守能力が強い

指令事前学習技術を組み込むことで、モデルの指令に従う能力が大幅に向上しました。

多言語サポート

日本語、英語、中国語、韓国語などの多言語の処理をサポートしています。

多様なアーキテクチャ選択

密集モデルやMoEモデルなどの異なるアーキテクチャを選択できます。

モデル能力

テキスト生成

指令遵守

多言語処理

自然言語理解

使用事例

自然言語処理

質問応答システム

多言語の質問応答システムを構築するために使用され、ユーザーの様々な質問に回答します。

MT Bench評価では、日本語の得点が6.30、英語の得点が5.70です。

指令実行

複雑な自然言語指令を理解して実行でき、自動化タスク処理に適しています。

AnswerCarefully-Eval評価では、受容率が64.7%、違反率が24.3%です。

🚀 llm-jp-3.1-1.8b-instruct4

LLM-jp-3.1は、国立情報学研究所の大規模言語モデル研究開発センターによって開発された大規模言語モデルのシリーズです。

LLM-jp-3シリーズをベースに、LLM-jp-3.1モデルは学習途中での命令事前学習を組み込んでおり、元のLLM-jp-3モデルと比較して、命令に従う能力が大幅に向上しています。

このリポジトリでは、llm-jp-3.1-1.8b-instruct4モデルを提供しています。様々なパラメータサイズのLLM-jp-3.1モデルの概要については、以下を参照してください。

学習手順と評価結果の詳細については、このブログ記事（日本語）を参照してください。

チェックポイント形式：Hugging Face Transformers

🚀 クイックスタート

必要なライブラリとそのバージョン

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

使用方法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3.1-1.8b-instruct4")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3.1-1.8b-instruct4", device_map="auto", torch_dtype=torch.bfloat16)
chat = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "自然言語処理とは何か"},
]
tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

✨ 主な機能

このモデルは、命令に従った応答を生成する能力が向上しています。学習途中での命令事前学習により、多様な命令に対応できるようになっています。

📚 ドキュメント

モデル詳細

属性	详情
モデルタイプ	Transformerベースの言語モデル
アーキテクチャ	- 密モデル：

トークナイザー

このモデルのトークナイザーは、huggingface/tokenizersのUnigram byte-fallbackモデルに基づいています。語彙エントリは、llm-jp-tokenizer v3.0から変換されています。語彙構築手順の詳細については、llm-jp-tokenizerのREADME.mdを参照してください（純粋なSentencePiece学習では、私たちの語彙を再現できません）。

データセット

事前学習

モデルは、以下のデータセットの混合を使用して事前学習されています。

言語	データセット	トークン数
日本語	Wikipedia	2.6B
	Common Crawl	762.8B
	WARP/PDF	237.3B
	WARP/HTML	2.7B
	Kaken	1.8B
英語	Wikipedia	4.7B
	Dolma/CC-head	608.5B
	Dolma/C4	181.6B
	Dolma/Reddit	83.1B
	Dolma/PeS2o	62.9B
	Dolma/Gutenberg	5.5B
	Dolma/Wiki	3.9B
コード	The Stack	114.1B
中国語	Wikipedia	0.8B
韓国語	Wikipedia	0.3B

学習途中の命令事前学習

LLM-jp-3.1シリーズでは、命令事前学習に基づいて継続的な事前学習を行いました。命令事前学習は、大量の命令 - 応答ペアで事前学習を続けることで、モデルが命令に従う能力を向上させます。約90Bトークンの命令 - 応答データを用意し、事前学習データセットと混合して、合計400Bトークンで継続的な事前学習を行いました。各モデルは、既存のチェックポイント（llm-jp/llm-jp-3-1.8b、llm-jp/llm-jp-3-13b、およびllm-jp/llm-jp-3-8x13b）から初期化され、継続的な命令事前学習を受けました。 LLM-jp-3シリーズは元々2.1Tトークンで事前学習されていたため、総事前学習トークン数は2.5Tトークンになります。

この学習プロセスの詳細は、今後の論文で公開されます。この学習に使用された命令 - 応答データセットも公開されます。

事後学習

事前学習済みのチェックポイントを教師あり微調整で微調整し、さらに直接嗜好最適化（Direct Preference Optimization）でアライメントを行いました。

教師あり微調整

教師あり微調整に使用されたデータセットは以下の通りです。

言語	データセット	説明
日本語	ichikara-instruction-004-002	手動で構築された命令データセット。
	AnswerCarefully (ver2.0)	LLMの安全性に焦点を当てた手動で構築された命令データセット。
	ichikara-instruction-format	ichikara-instructionデータセットの小さなサブセットで、出力形式にいくつかの制約を加えて編集されています。
	AutoMultiTurnByCalm3-22B	合成命令データセット。
	ramdom-to-fixed-multiturn-Calm3	合成命令データセット。
	wizardlm8x22b-logical-math-coding-sft-ja	合成命令データセット。
	magpie-sft-v1.0	私たちが作成した合成命令データセット。
	jaster v1.4.1	-
	extraction-wiki-ja	私たちが作成した合成命令データセット。
英語	Daring-Anteater	-
日本語と英語	Synthetic-JP-EN-Coding-Dataset	合成命令データセット。

直接嗜好最適化（Direct Preference Optimization）

直接嗜好最適化（DPO）には、棄却サンプリングを採用しました。プロンプトは教師あり微調整で使用されたデータセットからサンプリングされ、各プロンプトに対して複数の応答が生成されました。これらの応答は（Qwen/Qwen2.5-32B-Instructによって）スコア付けされ、高スコアの応答を正例、低スコアの応答を負例としてDPOが行われました。

DPOは2段階で行われました。 2段階目では、安全性に焦点を当てた日本語の嗜好データセットであるac-self-instも追加で使用しました。

評価

MT Bench（日本語と英語）

モデルをgpt-4o-2024-08-06を使用して評価しました。スコアは、3回の推論と評価から得られた平均値を表しています。詳細については、コードを参照してください。

モデル名	JA	EN
gpt-35-turbo-1106	6.48	7.56
gpt-4-0613	7.29	7.72
gpt-4o-2024-08-06	8.10	8.38
sbintuitions/sarashina2.2-1b-instruct-v0.1	5.30	5.66
sbintuitions/sarashina2.2-3b-instruct-v0.1	7.07	6.96
Rakuten/RakutenAI-2.0-8x7B-instruct	6.68	6.33
cyberagent/calm3-22b-chat	6.86	6.77
Qwen/Qwen2.5-14B-Instruct	7.07	7.99
Qwen/Qwen2.5-32B-Instruct	7.64	8.27
Qwen/Qwen3-1.7B	5.46	6.95
Qwen/Qwen3-14B	8.00	8.30
Qwen/Qwen3-32B	8.36	8.33
tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4	7.64	8.02
stockmark/Stockmark-2-100B-Instruct-beta	7.42	7.17
llm-jp-3-1.8b-instruct3	4.64	4.09
llm-jp-3-13b-instruct3	6.21	6.13
llm-jp-3-8x13b-instruct3	6.60	6.49
llm-jp-3.1-1.8b-instruct4	6.30	5.70
llm-jp-3.1-13b-instruct4	7.37	7.01
llm-jp-3.1-8x13b-instruct4	7.50	7.05

AnswerCarefully-Eval

AnswerCarefully-Evalは、llm-jp/AnswerCarefullyのテストセットに基づいて、LLM-as-a-Judgeアプローチを使用して日本語言語モデルの出力の安全性を評価します。モデルをgpt-4o-2024-08-06を使用して評価しました。スコアは、3回の推論と評価から得られた平均値を表しています。詳細については、コードを参照してください。

モデル名	スコア	受容率（%、↑）	違反率（%、↓）
gpt-35-turbo-1106	3.98	71.7	12.6
gpt-4-0613	4.06	72.3	13.2
gpt-4o-2024-08-06	4.09	72.7	12.5
llm-jp-3-1.8b-instruct3	4.03	75.9	12.2
llm-jp-3-13b-instruct3	4.37	88.4	6.5
llm-jp-3-8x13b-instruct3	4.48	91.6	4.3
llm-jp-3.1-1.8b-instruct4	3.66	64.7	24.3
llm-jp-3.1-13b-instruct4	4.17	82.4	12.2
llm-jp-3.1-8x13b-instruct4	4.26	83.1	11.6