LLM-jp-3.1-1.8bオープンソース大規模言語モデル - 命令遵守能力を強化し、実用価値が高い

ホーム

Llm Jp 3.1 1.8b

llm-jpによって開発

LLM-jp-3.1-1.8bは日本国立情報学研究所によって開発された大規模言語モデルで、LLM-jp-3シリーズに基づき、指令事前学習を組み込んで指令遵守能力を強化しています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #日本語最適化 #指令強化 #多言語対応

ダウンロード数 572

リリース時間 : 5/27/2025

モデル概要

LLM-jp-3.1-1.8bはTransformerアーキテクチャに基づく大規模言語モデルで、多言語処理をサポートし、特に日本語と英語の指令遵守能力が最適化されています。

モデル特徴

指令事前学習強化

学習中期に指令事前学習を組み込み、モデルの指令遵守能力を大幅に向上させます。

多言語対応

日本語、英語、中国語、韓国語などの多言語処理をサポートします。

パラメータ規模選択可能

異なるパラメータ規模のモデルバージョンを提供し、さまざまな計算要件を満たします。

モデル能力

日本語テキスト生成

英語テキスト生成

多言語翻訳

指令理解と実行

コード生成

使用事例

自然言語処理

日本語質問応答システム

日本語ベースのスマート質問応答アプリケーションを構築します。

日本語MT Bench評価で6.30点を獲得しました。

多言語翻訳

日本語と英語、中国語などの言語間の翻訳をサポートします。

コード支援

コード生成

自然言語の説明に基づいてコード断片を生成します。

🚀 llm-jp-3.1-1.8b

LLM-jp-3.1は、国立情報学研究所の大規模言語モデル開発センターによって開発された一連の大規模言語モデルです。

LLM-jp-3シリーズをベースに、LLM-jp-3.1モデルは訓練中期に指令事前学習を組み込んでおり、元のLLM-jp-3モデルと比較して、指令の遵守能力が大幅に向上しています。

このリポジトリではllm-jp-3.1-1.8bモデルを提供しています。異なるパラメータ規模のLLM-jp-3.1モデルの概要については、以下を参照してください。

訓練プロセスと評価結果の詳細については、このブログ記事（日本語）を参照してください。

チェックポイント形式：Hugging Face Transformers

🚀 クイックスタート

必要なライブラリとそのバージョン

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

モデルの使用

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3.1-1.8b")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-3.1-1.8b", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

✨ 主な機能

LLM-jp-3シリーズをベースに、訓練中期に指令事前学習を組み込み、指令の遵守能力を大幅に向上させています。
日本語、英語、中国語、韓国語などの複数の言語をサポートしています。
異なるパラメータ規模のモデルを提供し、様々なニーズに対応しています。

📚 ドキュメント

モデル詳細

属性	詳細
モデルタイプ	Transformerベースの言語モデル
アーキテクチャ	密集モデルとMoEモデルを含む

密集モデル

パラメータ	層数	隠れ層サイズ	ヘッド数	コンテキスト長	埋め込みパラメータ	非埋め込みパラメータ
1.8b	24	2048	16	4096	407,498,752	1,459,718,144
13b	40	5120	40	4096	1,018,746,880	12,688,184,320

MoEモデル

パラメータ	層数	隠れ層サイズ	ヘッド数	ルーティングエキスパート	活性化エキスパート	コンテキスト長	埋め込みパラメータ	非埋め込みパラメータ	活性化パラメータ	総パラメータ
8x13b	40	5120	40	8	2	4096	1,018,746,880	72,144,081,920	22,200,806,400	73,162,828,800

トークナイザー

このモデルのトークナイザーは、huggingface/tokenizersのUnigramバイトバックオフモデルに基づいています。語彙エントリは、llm-jp-tokenizer v3.0から変換されたものです。語彙構築プロセスの詳細については、llm-jp-tokenizerのREADME.mdを参照してください（純粋なSentencePiece訓練では、私たちの語彙を再現することはできません）。

データセット

事前学習

モデルは、以下のデータセットの混合を使用して事前学習されています。

言語	データセット	トークン数
日本語	Wikipedia	2.6B
	Common Crawl	762.8B
	WARP/PDF	237.3B
	WARP/HTML	2.7B
	Kaken	1.8B
英語	Wikipedia	4.7B
	Dolma/CC-head	608.5B
	Dolma/C4	181.6B
	Dolma/Reddit	83.1B
	Dolma/PeS2o	62.9B
	Dolma/Gutenberg	5.5B
	Dolma/Wiki	3.9B
コード	The Stack	114.1B
中国語	Wikipedia	0.8B
韓国語	Wikipedia	0.3B

訓練中期

LLM-jp-3.1シリーズでは、指令事前学習に基づいて継続的な事前学習を行っています。指令事前学習は、大量の指令 - 応答ペアで事前学習を続けることで、モデルの指令遵守能力を強化します。約900億トークンの指令 - 応答データを準備し、事前学習データセットと混合して、合計4000億トークンで継続的な事前学習を行いました。各モデルは、既存のチェックポイント（llm-jp/llm-jp-3-1.8b、llm-jp/llm-jp-3-13b、llm-jp/llm-jp-3-8x13b）から初期化され、継続的な指令事前学習が行われました。 LLM-jp-3シリーズは最初に21兆トークンで事前学習されていたため、総事前学習トークン数は25兆トークンに達しました。

この訓練プロセスの詳細は、近日公開される論文で発表されます。この訓練に使用された指令 - 応答データセットも公開されます。

訓練後期

事前学習チェックポイントに対して教師あり微調整を行い、さらに直接嗜好最適化を使用してアライメントを行いました。

教師あり微調整

教師あり微調整に使用されるデータセットは以下の通りです。

言語	データセット	説明
日本語	ichikara-instruction-004-002	手動で構築された指令データセット。
	AnswerCarefully (ver2.0)	大規模言語モデルの安全性に焦点を当てた手動で構築された指令データセット。
	ichikara-instruction-format	ichikara-instructionデータセットの小さなサブセットで、出力形式にいくつかの制約があります。
	AutoMultiTurnByCalm3-22B	合成指令データセット。
	ramdom-to-fixed-multiturn-Calm3	合成指令データセット。
	wizardlm8x22b-logical-math-coding-sft-ja	合成指令データセット。
	magpie-sft-v1.0	私たちが作成した合成指令データセット。
	jaster v1.4.1	-
	extraction-wiki-ja	私たちが作成した合成指令データセット。
英語	Daring-Anteater	-
日本語と英語	Synthetic-JP-EN-Coding-Dataset	合成指令データセット。

直接嗜好最適化

直接嗜好最適化（DPO）には、拒否サンプリングを採用しました。教師あり微調整で使用されるデータセットからプロンプトをサンプリングし、各プロンプトに対して複数の応答を生成します。その後、これらの応答を評価し（Qwen/Qwen2.5-32B-Instructを使用）、高得点の応答を正例、低得点の応答を負例としてDPOを行います。

DPOは2段階で行いました。第2段階では、安全性に焦点を当てた日本語の嗜好データセットであるac-self-instを追加で使用しました。

評価

MT Bench（日本語と英語）

gpt-4o-2024-08-06を使用してモデルを評価しました。スコアは、3回の推論と評価の平均値を表します。詳細については、コードを参照してください。

モデル名	日本語スコア	英語スコア
gpt-35-turbo-1106	6.48	7.56
gpt-4-0613	7.29	7.72
gpt-4o-2024-08-06	8.10	8.38
sbintuitions/sarashina2.2-1b-instruct-v0.1	5.30	5.66
sbintuitions/sarashina2.2-3b-instruct-v0.1	7.07	6.96
Rakuten/RakutenAI-2.0-8x7B-instruct	6.68	6.33
cyberagent/calm3-22b-chat	6.86	6.77
Qwen/Qwen2.5-14B-Instruct	7.07	7.99
Qwen/Qwen2.5-32B-Instruct	7.64	8.27
Qwen/Qwen3-1.7B	5.46	6.95
Qwen/Qwen3-14B	8.00	8.30
Qwen/Qwen3-32B	8.36	8.33
tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4	7.64	8.02
stockmark/Stockmark-2-100B-Instruct-beta	7.42	7.17
llm-jp-3-1.8b-instruct3	4.64	4.09
llm-jp-3-13b-instruct3	6.21	6.13
llm-jp-3-8x13b-instruct3	6.60	6.49
llm-jp-3.1-1.8b-instruct4	6.30	5.70
llm-jp-3.1-13b-instruct4	7.37	7.01
llm-jp-3.1-8x13b-instruct4	7.50	7.05

AnswerCarefully-Eval

AnswerCarefully-Evalは、LLMを評判者として使用する方法で、llm-jp/AnswerCarefullyのテストセットを基に、日本語言語モデルの出力の安全性を評価します。 gpt-4o-2024-08-06を使用してモデルを評価しました。スコアは、3回の推論と評価の平均値を表します。詳細については、コードを参照してください。

モデル名	スコア	受容率（%、高いほど良い）	違反率（%、低いほど良い）
gpt-35-turbo-1106	3.98	71.7	12.6
gpt-4-0613	4.06	72.3	13.2
gpt-4o-2024-08-06	4.09	72.7	12.5
llm-jp-3-1.8b-instruct3	4.03	75.9	12.2
llm-jp-3-13b-instruct3	4.37	88.4	6.5
llm-jp-3-8x13b-instruct3	4.48	91.6	4.3
llm-jp-3.1-1.8b-instruct4	3.66	64.7	24.3
llm-jp-3.1-13b-instruct4	4.17	82.4	12.2
llm-jp-3.1-8x13b-instruct4	4.26	83.1	11.6