multilingual-ModernBert-large-preview開源多語言模型

首頁

Multilingual ModernBert Large Preview

由makiart開發

由Algomatic團隊開發的多語言大型BERT模型，支持8192上下文長度，訓練約600億token，適用於填充掩碼任務。

大型語言模型

Safetensors

開源協議:MIT #多語言填充掩碼 #長上下文8192 #代碼優化分詞器

下載量 27

發布時間 : 2/11/2025

模型概述

這是一個多語言大型BERT模型，專為填充掩碼任務設計，支持多種語言處理，具有較大的詞彙量和上下文處理能力。

模型特點

長上下文支持

支持8192的上下文長度，適合處理長文本任務。

多語言能力

能夠處理多種語言（如韓語、英語、中文等）的文本。

高效推理

支持FlashAttention技術，可在支持GPU上實現高效推理。

大詞彙量

詞彙量達151,680，優化了代碼文本處理能力，可區分縮進。

模型能力

多語言文本處理

填充掩碼預測

長文本理解

使用案例

文本處理

韓語文本填充

預測韓語句子中被掩碼的詞語。

英語文本填充

預測英語句子中被掩碼的詞語。

中文文本填充

預測中文句子中被掩碼的詞語。

🚀 makiart/multilingual-ModernBert-large-preview

本模型由Algomatic團隊開發，藉助了ABCI生成式AI黑客松提供的計算資源。該模型主要用於掩碼填充任務，可處理多語言文本，在文本處理方面具有一定的應用價值。

🚀 快速開始

安裝依賴

安裝所需的包：

pip install -U transformers>=4.48.0

若你的GPU支持FlashAttention，可通過以下命令安裝以實現更高效的推理：

pip install flash-attn --no-build-isolation

✨ 主要特性

上下文長度：8192
詞彙量：151,680
總訓練詞元數：約600億詞元（繼承基礎模型權重後）
參數數量：5億
非嵌入參數數量：3.43億
數據集：使用了fineweb和fineweb2數據集

💻 使用示例

基礎用法

import torch
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline

model = AutoModelForMaskedLM.from_pretrained("makiart/multilingual-ModernBert-large", torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("makiart/multilingual-ModernBert-large")
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)

# 韓語示例
results = fill_mask("우리의 대부분의 고뇌는 가능했을 또 다른 인생을 [MASK] 데서 시작된다.")

for result in results:
    print(result)

# {'score': 0.09716796875, 'token': 131582, 'token_str': ' 통해', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 통해 데서 시작된다.'}
# {'score': 0.058837890625, 'token': 61298, 'token_str': ' 한', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 한 데서 시작된다.'}
# {'score': 0.04296875, 'token': 128956, 'token_str': ' 하는', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 하는 데서 시작된다.'}
# {'score': 0.02783203125, 'token': 130039, 'token_str': ' 위해', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 위해 데서 시작된다.'}
# {'score': 0.026123046875, 'token': 134108, 'token_str': ' 만들어', 'sequence': '우리의 대부분의 고뇌는 가능했을 또 다른 인생을 만들어 데서 시작된다.'}

# 英語示例
results = fill_mask("Pinning our hopes on the unreliable notion of our potential is the root of all our [MASK].")

for result in results:
    print(result)

# {'score': 0.1845703125, 'token': 5322, 'token_str': ' problems', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our problems.'}
# {'score': 0.08740234375, 'token': 27850, 'token_str': ' failures', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our failures.'}
# {'score': 0.06005859375, 'token': 23209, 'token_str': ' fears', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our fears.'}
# {'score': 0.0322265625, 'token': 34565, 'token_str': ' troubles', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our troubles.'}
# {'score': 0.0250244140625, 'token': 18707, 'token_str': ' dreams', 'sequence': 'Pinning our hopes on the unreliable notion of our potential is the root of all our dreams.'}

# 中文示例
results = fill_mask("我們必須[MASK]，我們只能成為此時此地的那個自己，而無法成為其他任何人。")

for result in results:
    print(result)

# {'score': 0.1904296875, 'token': 104953, 'token_str': '承認', 'sequence': '我們必須承認，我們只能成為此時此地的那個自己，而無法成為其他任何人。'}
# {'score': 0.1484375, 'token': 99392, 'token_str': '知道', 'sequence': '我們必須知道，我們只能成為此時此地的那個自己，而無法成為其他任何人。'}
# {'score': 0.1484375, 'token': 106836, 'token_str': '認識到', 'sequence': '我們必須認識到，我們只能成為此時此地的那個自己，而無法成為其他任何人。'}
# {'score': 0.10205078125, 'token': 101265, 'token_str': '明白', 'sequence': '我們必須明白，我們只能成為此時此地的那個自己，而無法成為其他任何人。'}
# {'score': 0.0703125, 'token': 105712, 'token_str': '記住', 'sequence': '我們必須記住，我們只能成為此時此地的那個自己，而無法成為其他任何人。'}

# 日語示例
results = fill_mask("たとえ[MASK]の中であっても鍋から的確に意中の具をつまみだせる技術")

for result in results:
    print(result)

# {'score': 0.5078125, 'token': 45629, 'token_str': '家', 'sequence': 'たとえ家の中であっても鍋から的確に意中の具をつまみだせる技術'}
# {'score': 0.11279296875, 'token': 116990, 'token_str': '鍋', 'sequence': 'たとえ鍋の中であっても鍋から的確に意中の具をつまみだせる技術'}
# {'score': 0.060546875, 'token': 105010, 'token_str': '廚房', 'sequence': 'たとえ廚房の中であっても鍋から的確に意中の具をつまみだせる技術'}
# {'score': 0.02685546875, 'token': 101064, 'token_str': '家庭', 'sequence': 'たとえ家庭の中であっても鍋から的確に意中の具をつまみだせる技術'}
# {'score': 0.0184326171875, 'token': 142935, 'token_str': 'キッチン', 'sequence': 'たとえキッチンの中であっても鍋から的確に意中の具をつまみだせる技術'}