llm-jp-modernbert-baseオープンソース日本語大規模言語モデル - 長シーケンス対応、大量のコーパスで訓練済み

Home

Llm Jp Modernbert Base

Developed by llm-jp

modernBERT-baseアーキテクチャに基づく日本語大規模言語モデル、最大8192のシーケンス長をサポート、3.4TBの日本語コーパスで訓練

大規模言語モデル

Transformers

JapaneseOpen Source License:Apache-2.0 #日本語大規模言語モデル #長文処理 #マスク言語モデリング

Downloads 1,398

Release Time : 4/25/2025

Model Overview

このモデルは日本語に最適化されたBERT変種で、modernBERTアーキテクチャとllm-jp-tokenizerトークナイザーを採用し、日本語テキスト理解と生成タスクに適しています

Model Features

長文コンテキストサポート

最大8192のシーケンス長をサポートし、長文処理に適しています

大規模訓練データ

llm-jp-corpus v4の日本語サブセット（3.4TB）を使用して訓練

最適化されたトークナイザー

llm-jp-tokenizerトークナイザーを採用し、日本語テキストに特化して最適化

Model Capabilities

日本語テキスト理解

マスク言語予測

長文処理

Use Cases

自然言語処理

日本語テキスト補完

テキスト中のマスク部分を予測

例文中の'日本の首都は東京です'の'東京'を正確に予測

日本語テキスト分類

感情分析、トピック分類などのタスクに使用可能

🚀 llm-jp-modernbert-base

このモデルは、modernBERT-baseアーキテクチャとllm-jp-tokenizerをベースに構築されています。llm-jp-corpus v4の日本語サブセット（3.4TB）を使用して学習され、最大シーケンス長8192をサポートしています。

学習方法、評価、および分析結果の詳細については、llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Lengthをご覧ください。

🚀 クイックスタート

📦 インストール

transformersライブラリをインストールしてください。

pip install "transformers>=4.48.0"

GPUがflash-attn 2をサポートしている場合は、flash-attnのインストールをおすすめします。

pip install flash-attn --no-build-isolation

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForMaskedLM

model_id = "llm-jp/llm-jp-modernbert-base"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForMaskedLM.from_pretrained(model_id)

text = "日本の首都は<MASK|LLM-jp>です。"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

# To get predictions for the mask:
masked_index = inputs["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predicted_token_id = outputs.logits[0, masked_index].argmax(axis=-1)
predicted_token = tokenizer.decode(predicted_token_id)
print("Predicted token:", predicted_token)
# Predicted token:  東京

🔧 技術詳細

学習

このモデルは、第1段階で最大シーケンス長1024、第2段階で最大シーケンス長8192で学習されました。

学習コードは、https://github.com/llm-jp/llm-jp-modernbert で確認できます。

モデルの属性	第1段階	第2段階
最大シーケンス長	1024	8192
最大ステップ数	500,000	200,000
総バッチサイズ	3328	384
ピーク学習率	5e-4	5e-5
ウォームアップステップ	24,000	第1段階と同じ
学習率スケジュール	線形減衰	第1段階と同じ
Adam beta 1	0.9	第1段階と同じ
Adam beta 2	0.98	第1段階と同じ
Adam eps	1e-6	第1段階と同じ
MLM確率	0.30	第1段階と同じ
勾配クリッピング	1.0	第1段階と同じ
重み減衰	1e-5	第1段階と同じ
行単位処理	True	第1段階と同じ

評価

JGLUEのJSTS、JNLI、およびJCoLAが使用されました。評価コードは、https://github.com/llm-jp/llm-jp-modernbert で確認できます。

モデル	JSTS (ピアソン相関係数)	JNLI (正解率)	JCoLA (正解率)	平均
tohoku-nlp/bert-base-japanese-v3	0.920	0.912	0.880	0.904
sbintuitions/modernbert-ja-130m	0.916	0.927	0.868	0.904
sbintuitions/modernbert-ja-310m	0.932	0.933	0.883	0.916
llm-jp/llm-jp-modernbert-base	0.918	0.913	0.844	0.892

📄 ライセンス

Apache License, Version 2.0

引用

@misc{sugiura2025llmjpmodernbertmodernbertmodeltrained,
      title={llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length}, 
      author={Issa Sugiura and Kouta Nakayama and Yusuke Oda},
      year={2025},
      eprint={2504.15544},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2504.15544}, 
}