llm-jp-modernbert-base开源日语大语言模型 - 长序列支持，海量语料训练

首页

Llm Jp Modernbert Base

由 llm-jp 开发

基于modernBERT-base架构的日语大语言模型，支持最大8192的序列长度，使用3.4TB日语语料训练

大型语言模型

Transformers

日语开源协议:Apache-2.0 #日语大语言模型 #长文本处理 #掩码语言建模

下载量 1,398

发布时间 : 4/25/2025

模型简介

该模型是针对日语优化的BERT变体，采用modernBERT架构和llm-jp-tokenizer分词器，适用于日语文本理解和生成任务

模型特点

长上下文支持

支持最大8192的序列长度，适合处理长文本

大规模训练数据

使用llm-jp-corpus v4的日语子集（3.4TB）进行训练

优化的分词器

采用llm-jp-tokenizer分词器，专门针对日语文本优化

模型能力

日语文本理解

掩码语言预测

长文本处理

使用案例

自然语言处理

日语文本补全

预测文本中的掩码部分

示例中正确预测'日本の首都は東京です'中的'東京'

日语文本分类

可用于情感分析、主题分类等任务

🚀 llm-jp-modernbert-base

本模型基于 modernBERT-base 架构，并使用 llm-jp-tokenizer。它使用 llm-jp-corpus v4 的日语子集（3.4TB）进行训练，支持的最大序列长度为 8192。

如需了解训练方法、评估和分析结果的详细信息，请访问 llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length。

🚀 快速开始

请安装 transformers 库。

pip install "transformers>=4.48.0"

如果你的 GPU 支持 flash-attn 2，建议安装 flash-attn。

pip install flash-attn --no-build-isolation

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForMaskedLM

model_id = "llm-jp/llm-jp-modernbert-base"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForMaskedLM.from_pretrained(model_id)

text = "日本の首都は<MASK|LLM-jp>です。"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

# To get predictions for the mask:
masked_index = inputs["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predicted_token_id = outputs.logits[0, masked_index].argmax(axis=-1)
predicted_token = tokenizer.decode(predicted_token_id)
print("Predicted token:", predicted_token)
# Predicted token:  東京

📚 详细文档

训练

此模型在第一阶段以最大序列长度 1024 进行训练，然后在第二阶段以最大序列长度 8192 进行训练。

训练代码可在 https://github.com/llm-jp/llm-jp-modernbert 找到。

模型	阶段 1	阶段 2
最大序列长度	1024	8192
最大步数	500,000	200,000
总批量大小	3328	384
峰值学习率	5e-4	5e-5
预热步数	24,000
学习率调度	线性衰减
Adam 系数 beta 1	0.9
Adam 系数 beta 2	0.98
Adam 系数 eps	1e-6
掩码语言模型概率	0.30
梯度裁剪	1.0
权重衰减	1e-5
逐行处理	True

阶段 2 中的空白表示与阶段 1 的值相同。

评估

使用了来自 JGLUE 的 JSTS、JNLI 和 JCoLA 进行评估。

评估代码可在 https://github.com/llm-jp/llm-jp-modernbert 找到。

模型	JSTS（皮尔逊相关系数）	JNLI（准确率）	JCoLA（准确率）	平均值
tohoku-nlp/bert-base-japanese-v3	0.920	0.912	0.880	0.904
sbintuitions/modernbert-ja-130m	0.916	0.927	0.868	0.904
sbintuitions/modernbert-ja-310m	0.932	0.933	0.883	0.916
llm-jp/llm-jp-modernbert-base	0.918	0.913	0.844	0.892

📄 许可证

Apache 许可证，版本 2.0

🔖 引用

@misc{sugiura2025llmjpmodernbertmodernbertmodeltrained,
      title={llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length}, 
      author={Issa Sugiura and Kouta Nakayama and Yusuke Oda},
      year={2025},
      eprint={2504.15544},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2504.15544}, 
}