🚀 llm-jp-modernbert-base
このモデルは、modernBERT-baseアーキテクチャとllm-jp-tokenizerをベースに構築されています。llm-jp-corpus v4の日本語サブセット(3.4TB)を使用して学習され、最大シーケンス長8192をサポートしています。
学習方法、評価、および分析結果の詳細については、llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Lengthをご覧ください。
🚀 クイックスタート
📦 インストール
transformersライブラリをインストールしてください。
pip install "transformers>=4.48.0"
GPUがflash-attn 2をサポートしている場合は、flash-attnのインストールをおすすめします。
pip install flash-attn --no-build-isolation
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
model_id = "llm-jp/llm-jp-modernbert-base"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForMaskedLM.from_pretrained(model_id)
text = "日本の首都は<MASK|LLM-jp>です。"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
masked_index = inputs["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predicted_token_id = outputs.logits[0, masked_index].argmax(axis=-1)
predicted_token = tokenizer.decode(predicted_token_id)
print("Predicted token:", predicted_token)
🔧 技術詳細
学習
このモデルは、第1段階で最大シーケンス長1024、第2段階で最大シーケンス長8192で学習されました。
学習コードは、https://github.com/llm-jp/llm-jp-modernbert で確認できます。
モデルの属性 |
第1段階 |
第2段階 |
最大シーケンス長 |
1024 |
8192 |
最大ステップ数 |
500,000 |
200,000 |
総バッチサイズ |
3328 |
384 |
ピーク学習率 |
5e-4 |
5e-5 |
ウォームアップステップ |
24,000 |
第1段階と同じ |
学習率スケジュール |
線形減衰 |
第1段階と同じ |
Adam beta 1 |
0.9 |
第1段階と同じ |
Adam beta 2 |
0.98 |
第1段階と同じ |
Adam eps |
1e-6 |
第1段階と同じ |
MLM確率 |
0.30 |
第1段階と同じ |
勾配クリッピング |
1.0 |
第1段階と同じ |
重み減衰 |
1e-5 |
第1段階と同じ |
行単位処理 |
True |
第1段階と同じ |
評価
JGLUEのJSTS、JNLI、およびJCoLAが使用されました。
評価コードは、https://github.com/llm-jp/llm-jp-modernbert で確認できます。
モデル |
JSTS (ピアソン相関係数) |
JNLI (正解率) |
JCoLA (正解率) |
平均 |
tohoku-nlp/bert-base-japanese-v3 |
0.920 |
0.912 |
0.880 |
0.904 |
sbintuitions/modernbert-ja-130m |
0.916 |
0.927 |
0.868 |
0.904 |
sbintuitions/modernbert-ja-310m |
0.932 |
0.933 |
0.883 |
0.916 |
llm-jp/llm-jp-modernbert-base |
0.918 |
0.913 |
0.844 |
0.892 |
📄 ライセンス
Apache License, Version 2.0
引用
@misc{sugiura2025llmjpmodernbertmodernbertmodeltrained,
title={llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length},
author={Issa Sugiura and Kouta Nakayama and Yusuke Oda},
year={2025},
eprint={2504.15544},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.15544},
}