multilingual-ModernBert-base-preview開源多語言模型 - 支持填充掩碼任務，長上下文超實用

首頁

Multilingual ModernBert Base Preview

由makiart開發

由Algomatic團隊開發的多語言BERT模型，支持填充掩碼任務，具有8192的上下文長度和151,680的詞彙量。

大型語言模型

Safetensors

開源協議:MIT #多語言填充掩碼 #長上下文處理 #編程文本優化

下載量 60

發布時間 : 2/10/2025

模型概述

該模型是一個多語言的BERT模型，主要用於填充掩碼任務。它支持多種語言，具有較長的上下文處理能力，適用於文本理解和生成任務。

模型特點

長上下文支持

支持8192的上下文長度，適合處理長文本任務。

多語言能力

支持多種語言，包括韓語、英語、中文和日語等。

高效推理

支持FlashAttention，可在支持GPU上實現更高效的推理。

定製化分詞器

基於Qwen2.5的分詞器，詞彙量151,680，優化了代碼縮進識別。

模型能力

填充掩碼

多語言文本理解

長文本處理

使用案例

文本理解與生成

韓語文本填充

填充韓語句子中的缺失部分。

示例結果：{'score': 0.248046875, 'token': 128956, 'token_str': ' 하는', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 하는 데서 시작된다.'}

英語文本填充

填充英語句子中的缺失部分。

示例結果：{'score': 0.20703125, 'token': 5322, 'token_str': ' problems', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our problems.'}

中文文本填充

填充中文句子中的缺失部分。

示例結果：{'score': 0.177734375, 'token': 99392, 'token_str': '知道', 'sequence': '我們必須知道，我們只能成為此時此地的那個自己，而無法成為其他任何人。'}

日語文本填充

填充日語句子中的缺失部分。

示例結果：{'score': 0.11865234375, 'token': 142732, 'token_str': 'ケーキ', 'sequence': '大きなケーキを一人で切り分けて食べるというのは孤獨の極地ですからね'}

🚀 makiart/multilingual-ModernBert-base-preview

這是由 Algomatic 團隊藉助 ABCI 生成式 AI 黑客松提供的計算資源開發的多語言模型，可用於掩碼填充任務。

屬性	詳情
模型類型	掩碼語言模型（Masked Language Model）
訓練數據	fineweb 和 fineweb2 數據集
上下文長度	8192
詞彙量	151,680
總訓練令牌數	約 250B 令牌
參數數量	228M
非嵌入參數數量	110M

🚀 快速開始

安裝依賴

首先，你需要安裝所需的 Python 包：

pip install -U transformers>=4.48.0

如果你的 GPU 支持 FlashAttention，安裝以下包可以實現更高效的推理：

pip install flash-attn --no-build-isolation

💻 使用示例

基礎用法

import torch
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline

model = AutoModelForMaskedLM.from_pretrained("makiart/multilingual-ModernBert-base", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("makiart/multilingual-ModernBert-base")
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)

# 韓語示例
results = fill_mask("우리의 대부분의 고뇌는 가능했을 또 다른 인생을 [MASK] 데서 시작된다.")
for result in results:
    print(result)

# 英語示例
results = fill_mask("Pinning our hopes on the unreliable notion of our potential is the root of all our [MASK].")
for result in results:
    print(result)

# 中文示例
results = fill_mask("我們必須[MASK]，我們只能成為此時此地的那個自己，而無法成為其他任何人。")
for result in results:
    print(result)

# 日語示例
results = fill_mask("大きな[MASK]を一人で切り分けて食べるというのは孤獨の極地ですからね")
for result in results:
    print(result)

📚 詳細文檔

模型描述

訓練方法：該模型採用兩階段掩碼語言建模（MLM）過程進行訓練。
- 掩碼率：30%
- 訓練數據：使用約 200B 上下文長度為 1024 的令牌和 50B 上下文長度為 8192 的令牌進行訓練。
分詞器：基於 Qwen2.5 構建，具有以下特點：
- 詞彙量為 151,680 個令牌。
- 經過定製，能夠區分代碼中的縮進，從而更好地處理編程文本。
數據集：
- 使用了 fineweb 和 fineweb2 數據集。
- 對於數據豐富的語言，減少了數據量。
計算資源：使用 ABCI 提供的一個節點（H200 x 8）進行訓練，大約耗時 3 天。