multilingual-ModernBert-base-previewオープンソース多言語モデル - マスク付き埋め込みタスクをサポートし、長文脈でも非常に実用的

ホーム

Multilingual ModernBert Base Preview

makiartによって開発

Algomaticチームによって開発された多言語BERTモデルで、マスキングタスクをサポートし、8192のコンテキスト長と151,680の語彙サイズを備えています。

大規模言語モデル

Safetensors

オープンソースライセンス:MIT #多言語マスキング #長文コンテキスト処理 #プログラミングテキスト最適化

ダウンロード数 60

リリース時間 : 2/10/2025

モデル概要

このモデルは多言語BERTモデルで、主にマスキングタスクに使用されます。複数の言語をサポートし、長いコンテキスト処理能力があり、テキスト理解と生成タスクに適しています。

モデル特徴

長文コンテキストサポート

8192のコンテキスト長をサポートし、長文タスクの処理に適しています。

多言語能力

韓国語、英語、中国語、日本語など、複数の言語をサポートしています。

効率的な推論

FlashAttentionをサポートし、対応GPUでより効率的な推論を実現できます。

カスタマイズされたトークナイザー

Qwen2.5ベースのトークナイザーで、語彙サイズ151,680、コードインデント認識を最適化しています。

モデル能力

マスキング

多言語テキスト理解

長文処理

使用事例

テキスト理解と生成

韓国語テキストマスキング

韓国語の文の欠落部分を埋めます。

サンプル結果：{'score': 0.248046875, 'token': 128956, 'token_str': ' 하는', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 하는 데서 시작된다.'}

英語テキストマスキング

英語の文の欠落部分を埋めます。

サンプル結果：{'score': 0.20703125, 'token': 5322, 'token_str': ' problems', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our problems.'}

中国語テキストマスキング

中国語の文の欠落部分を埋めます。

サンプル結果：{'score': 0.177734375, 'token': 99392, 'token_str': '知道', 'sequence': '我们必须知道，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}

日本語テキストマスキング

日本語の文の欠落部分を埋めます。

サンプル結果：{'score': 0.11865234375, 'token': 142732, 'token_str': 'ケーキ', 'sequence': '大きなケーキを一人で切り分けて食べるというのは孤独の極地ですからね'}

🚀 makiart/multilingual-ModernBert-base-preview

このモデルは、Algomaticチームによって開発され、ABCI 生成AIハッカソンから提供された計算資源を使用しています。このモデルはマスク言語モデリング（MLM）タスクに特化しており、多言語に対応しています。

📋 モデル情報

属性	详情
モデルタイプ	マスク言語モデリング（MLM）
コンテキスト長	8192
語彙数	151,680
総学習トークン数	約250B Tokens
パラメータ数	228M
埋め込み抜きパラメータ数	110M
トレーニングデータ	fineweb、fineweb2データセットを利用

🚀 クイックスタート

このモデルを使用するには、まず必要なパッケージをインストールする必要があります。

pip install -U transformers>=4.48.0

GPUがFlashAttentionに対応している場合、以下のコマンドを実行することで、より効率的な推論が可能になります。

pip install flash-attn --no-build-isolation

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline

model = AutoModelForMaskedLM.from_pretrained("makiart/multilingual-ModernBert-base-preview", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("makiart/multilingual-ModernBert-base-preview")
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)

results = fill_mask("大きな[MASK]を一人で切り分けて食べるというのは孤独の極地ですからね")

for result in results:
    print(result)

# {'score': 0.11865234375, 'token': 142732, 'token_str': 'ケーキ', 'sequence': '大きなケーキを一人で切り分けて食べるというのは孤独の極地ですからね'}
# {'score': 0.10498046875, 'token': 52853, 'token_str': '物', 'sequence': '大きな物を一人で切り分けて食べるというのは孤独の極地ですからね'}
# {'score': 0.08154296875, 'token': 108371, 'token_str': '魚', 'sequence': '大きな魚を一人で切り分けて食べるというのは孤独の極地ですからね'}
# {'score': 0.05615234375, 'token': 111974, 'token_str': '料理', 'sequence': '大きな料理を一人で切り分けて食べるというのは孤独の極地ですからね'}
# {'score': 0.043701171875, 'token': 115913, 'token_str': '動物', 'sequence': '大きな動物を一人で切り分けて食べるというのは孤独の極地ですからね'}

高度な使用法

# 他の言語での使用例
import torch
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline

model = AutoModelForMaskedLM.from_pretrained("makiart/multilingual-ModernBert-base", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("makiart/multilingual-ModernBert-base")
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)

# 韓国語の例
results = fill_mask("우리의 대부분의 고뇌는 가능했을 또 다른 인생을 [MASK] 데서 시작된다.")

for result in results:
    print(result)

# {'score': 0.248046875, 'token': 128956, 'token_str': ' 하는', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 하는 데서 시작된다.'}
# {'score': 0.1328125, 'token': 61298, 'token_str': ' 한', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 한 데서 시작된다.'}
# {'score': 0.06689453125, 'token': 95002, 'token_str': ' 할', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 할 데서 시작된다.'}
# {'score': 0.055419921875, 'token': 130679, 'token_str': ' 위한', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 위한 데서 시작된다.'}
# {'score': 0.04052734375, 'token': 131582, 'token_str': ' 통해', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 통해 데서 시작된다.'}

# 英語の例
results = fill_mask("Pinning our hopes on the unreliable notion of our potential is the root of all our [MASK].")

for result in results:
    print(result)

# {'score': 0.20703125, 'token': 5322, 'token_str': ' problems', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our problems.'}
# {'score': 0.09765625, 'token': 27850, 'token_str': ' failures', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our failures.'}
# {'score': 0.040771484375, 'token': 34565, 'token_str': ' troubles', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our troubles.'}
# {'score': 0.03173828125, 'token': 18707, 'token_str': ' dreams', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our dreams.'}
# {'score': 0.028076171875, 'token': 23209, 'token_str': ' fears', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our fears.'}

# 中国語の例
results = fill_mask("我们必须[MASK]，我们只能成为此时此地的那个自己，而无法成为其他任何人。")

for result in results:
    print(result)

# {'score': 0.177734375, 'token': 99392, 'token_str': '知道', 'sequence': '我们必须知道，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}
# {'score': 0.138671875, 'token': 104953, 'token_str': '承认', 'sequence': '我们必须承认，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}
# {'score': 0.12255859375, 'token': 101265, 'token_str': '明白', 'sequence': '我们必须明白，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}
# {'score': 0.07421875, 'token': 105712, 'token_str': '记住', 'sequence': '我们必须记住，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}
# {'score': 0.0654296875, 'token': 106836, 'token_str': '认识到', 'sequence': '我们必须认识到，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}

📚 ドキュメント

モデルの説明

学習アプローチ：このモデルは、2段階のマスク言語モデリング（MLM）プロセスを使用して学習されました。
- マスキングレート：30%
- トレーニングデータ：コンテキスト長1024で約200B Tokens、コンテキスト長8192で約50B Tokens。
トークナイザー：Qwen2.5をベースとしたトークナイザーを使用しています。
- 語彙数は151,680です。
- コードのインデント部分を区別できるようにカスタマイズされており、プログラミングテキストも良好に扱えます。
データセット：
- finewebとfineweb2データセットを利用しています。
- データ量の多い言語については、データ量を削減しています。
計算資源：ABCIから提供された1ノード（H200 x 8）を使用して、約3日間の学習を行いました。