jp-ModernBERT-large-previewオープンソース日本語モデル - マスク埋め込みと超长コンテキスト処理をサポート

Home

Jp ModernBERT Large Preview

Developed by makiart

Algomaticチームによって訓練された日本語BERTモデルで、マスキングタスクをサポートし、コンテキスト長は8192です。

大規模言語モデル

Safetensors

JapaneseOpen Source License:MIT #日本語マスキング #長文コンテキスト対応 #効率的な推論

Downloads 20

Release Time : 2/11/2025

Model Overview

これはBERTアーキテクチャに基づく日本語言語モデルで、特にマスキングタスクに最適化されています。モデルはfineweb2日本語データセットで訓練され、大きなコンテキスト処理能力を持っています。

Model Features

長文コンテキスト対応

8192トークンのコンテキスト長をサポートし、長文タスクに適しています。

効率的な推論

FlashAttentionによる高速化をサポートし、互換性のあるGPUで推論効率を向上させます。

専門日本語トークン化

BertJapaneseTokenizerを使用し、日本語テキスト処理に最適化されています。

Model Capabilities

日本語テキスト理解

マスキング予測

長文処理

Use Cases

テキスト処理

文の補完

文中のマスクされた単語を予測します

例では、'我々の大方の苦悩は、あり得べき別の[MASK]を夢想することから始まる。'の[MASK]位置の可能な単語を予測しています

🚀 makiart/jp-modernbert-large-preview

このモデルは、ABCI 生成AIハッカソンで提供された計算資源を活用し、Algomaticチームによって作成されました。

属性	详情
コンテキスト長	8192
語彙数	50,368
総学習トークン数	約100B Tokens（Baseから重み継承後）
パラメータ数	396M
埋め込み抜きパラメータ数	343M
利用データセット	fineweb2 日本語データ

🚀 クイックスタート

📦 インストール

トークナイザーにBertJapaneseTokenizerを利用しているため、下記のパッケージを追加でインストールする必要があります。

pip install -U transformers>=4.48.0

pip install fugashi unidic_lite

GPUがFlashAttentionに対応している場合、下記のインストールを行うと効率よく推論できます。

pip install flash-attn --no-build-isolation

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline

model = AutoModelForMaskedLM.from_pretrained("makiart/jp-ModernBERT-large-preview", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("makiart/jp-ModernBERT-large-preview")
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)

results = fill_mask("我々の大方の苦悩は、あり得べき別の[MASK]を夢想することから始まる。")

for result in results:
    print(result)

# {'score': 0.16015625, 'token': 12489, 'token_str': 'こと', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の こと を 夢想 する こと から 始まる 。'}
# {'score': 0.09716796875, 'token': 12518, 'token_str': 'もの', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の もの を 夢想 する こと から 始まる 。'}
# {'score': 0.043212890625, 'token': 12575, 'token_str': '世界', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 世界 を 夢想 する こと から 始まる 。'}
# {'score': 0.03369140625, 'token': 29991, 'token_str': '事柄', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 事柄 を 夢想 する こと から 始まる 。'}
# {'score': 0.0296630859375, 'token': 655, 'token_str': '事', 'sequence': '我々 の 大方 の 苦悩 は 、 あり 得 べき 別 の 事 を 夢想 する こと から 始まる 。'}