multilingual-ModernBert-large-previewオープンソース多言語モデル - 長いテキストのマスク埋め込みタスクをサポート

ホーム

Multilingual ModernBert Large Preview

makiartによって開発

Algomaticチームによって開発された多言語大型BERTモデルで、8192トークンのコンテキスト長をサポートし、約600億トークンでトレーニングされ、マスキングタスクに適しています。

大規模言語モデル

Safetensors

オープンソースライセンス:MIT #多言語マスキング #長文コンテキスト8192 #コード最適化トークナイザー

ダウンロード数 27

リリース時間 : 2/11/2025

モデル概要

これは多言語大型BERTモデルで、マスキングタスク専用に設計されており、複数の言語処理をサポートし、大きな語彙量とコンテキスト処理能力を持っています。

モデル特徴

長文コンテキストサポート

8192トークンのコンテキスト長をサポートし、長文タスクの処理に適しています。

多言語能力

韓国語、英語、中国語など、複数の言語のテキストを処理できます。

効率的な推論

FlashAttention技術をサポートし、対応GPUで効率的な推論を実現します。

大語彙量

語彙量は151,680で、コードテキスト処理能力を最適化し、インデントを区別できます。

モデル能力

多言語テキスト処理

マスキング予測

長文理解

使用事例

テキスト処理

韓国語テキストマスキング

韓国語の文でマスクされた単語を予測します。

英語テキストマスキング

英語の文でマスクされた単語を予測します。

中国語テキストマスキング

中国語の文でマスクされた単語を予測します。

🚀 makiart/multilingual-ModernBert-large-preview

このモデルは、ABCI 生成AIハッカソンで提供された計算資源を使用して、Algomaticチームによって開発されました。このモデルは、多言語に対応した大規模なBERTモデルで、特定のコンテキスト長や語彙数を持ち、特定のデータセットを用いて学習されています。

🚀 クイックスタート

このモデルを使用するには、まず必要なパッケージをインストールする必要があります。以下のコマンドを使用して、transformersパッケージをインストールしてください。

pip install -U transformers>=4.48.0

もしあなたのGPUがFlashAttentionをサポートしている場合、以下のコマンドを実行することで、より効率的な推論が可能になります。

pip install flash-attn --no-build-isolation

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline

model = AutoModelForMaskedLM.from_pretrained("makiart/multilingual-ModernBert-large", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("makiart/multilingual-ModernBert-large")
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)

results = fill_mask("우리의 대부분의 고뇌는 가능했을 또 다른 인생을 [MASK] 데서 시작된다.")

for result in results:
    print(result)

# {'score': 0.09716796875, 'token': 131582, 'token_str': ' 통해', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 통해 데서 시작된다.'}
# {'score': 0.058837890625, 'token': 61298, 'token_str': ' 한', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 한 데서 시작된다.'}
# {'score': 0.04296875, 'token': 128956, 'token_str': ' 하는', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 하는 데서 시작된다.'}
# {'score': 0.02783203125, 'token': 130039, 'token_str': ' 위해', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 위해 데서 시작된다.'}
# {'score': 0.026123046875, 'token': 134108, 'token_str': ' 만들어', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 만들어 데서 시작된다.'}


results = fill_mask("Pinning our hopes on the unreliable notion of our potential is the root of all our [MASK].")

for result in results:
    print(result)

# {'score': 0.1845703125, 'token': 5322, 'token_str': ' problems', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our problems.'}
# {'score': 0.08740234375, 'token': 27850, 'token_str': ' failures', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our failures.'}
# {'score': 0.06005859375, 'token': 23209, 'token_str': ' fears', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our fears.'}
# {'score': 0.0322265625, 'token': 34565, 'token_str': ' troubles', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our troubles.'}
# {'score': 0.0250244140625, 'token': 18707, 'token_str': ' dreams', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our dreams.'}


results = fill_mask("我们必须[MASK]，我们只能成为此时此地的那个自己，而无法成为其他任何人。")

for result in results:
    print(result)

# {'score': 0.1904296875, 'token': 104953, 'token_str': '承认', 'sequence': '我们必须承认，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}
# {'score': 0.1484375, 'token': 99392, 'token_str': '知道', 'sequence': '我们必须知道，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}
# {'score': 0.1484375, 'token': 106836, 'token_str': '认识到', 'sequence': '我们必须认识到，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}
# {'score': 0.10205078125, 'token': 101265, 'token_str': '明白', 'sequence': '我们必须明白，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}
# {'score': 0.0703125, 'token': 105712, 'token_str': '记住', 'sequence': '我们必须记住，我们只能成为此时此地的那个自己，而无法成为其他任何人。'}

高度な使用法

import torch
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline

model = AutoModelForMaskedLM.from_pretrained("makiart/multilingual-ModernBert-large", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("makiart/multilingual-ModernBert-large")
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)

results = fill_mask("たとえ[MASK]の中であっても鍋から的確に意中の具をつまみだせる技術")

for result in results:
    print(result)

# {'score': 0.5078125, 'token': 45629, 'token_str': '家', 'sequence': 'たとえ家の中であっても鍋から的確に意中の具をつまみだせる技術'}
# {'score': 0.11279296875, 'token': 116990, 'token_str': '鍋', 'sequence': 'たとえ鍋の中であっても鍋から的確に意中の具をつまみだせる技術'}
# {'score': 0.060546875, 'token': 105010, 'token_str': '厨房', 'sequence': 'たとえ厨房の中であっても鍋から的確に意中の具をつまみだせる技術'}
# {'score': 0.02685546875, 'token': 101064, 'token_str': '家庭', 'sequence': 'たとえ家庭の中であっても鍋から的確に意中の具をつまみだせる技術'}
# {'score': 0.0184326171875, 'token': 142935, 'token_str': 'キッチン', 'sequence': 'たとえキッチンの中であっても鍋から的確に意中の具をつまみだせる技術'}

📚 ドキュメント

モデルの概要

属性	详情
モデルタイプ	多言語ModernBert-largeモデル
学習データ	finewebとfineweb2データセットを利用。データ量の多い言語はデータ量を削減しています。
コンテキスト長	8192
語彙数	151,680
総学習トークン数	約60B Tokens（Baseから重み継承後）
パラメータ数	500M
埋め込み抜きパラメータ数	343M
トークナイザー	Qwen2.5をベースとしており、語彙数は151,680です。コードのテキストにも対応できるようにインデント部分を区別できるようにカスタマイズされています。
計算資源	ABCIから提供された1ノード（H200 x 8）を使用して、約2日間学習を行いました。