RuModernBERT-baseオープンソースモデル - ロシア語処理をサポート、超長文脈の事前学習で超実用的

Home

Rumodernbert Base

Developed by deepvk

現代的な双方向エンコーダー専用Transformerモデルのロシア語版で、約2兆のロシア語、英語、コードトークンで事前学習され、コンテキスト長は8,192トークンに達します。

大規模言語モデル

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #ロシア語・英語バイリンガルモデル #長文コンテキスト処理 #マスク言語理解

Downloads 2,992

Release Time : 1/24/2025

Model Overview

RuModernBERTはModernBERTのロシア語版で、マスク言語モデルタスクに焦点を当て、ロシア語と英語をサポートします。

Model Features

長文コンテキストサポート

最大8,192トークンのコンテキスト長をサポート

多言語事前学習

ロシア語、英語、コードトークンで事前学習

効率的なトレーニング

大規模事前学習、コンテキスト拡張、冷却段階を含む3段階のトレーニング戦略を採用

Model Capabilities

マスク言語モデル

ロシア語テキスト理解

英語テキスト理解

Use Cases

自然言語処理

テキスト補完

マスクされた単語やフレーズを予測

マスク予測タスクで良好な性能

テキスト分類

感情分析などのテキスト分類タスクに使用可能

Russian Super Glueベンチマークで優れた性能

🚀 RuModernBERT-base

現代化された双方向エンコーダ専用TransformerモデルであるModernBERTのロシア語版です。RuModernBERTは、インターネット、書籍、科学資料、ソーシャルメディアなどのデータを用いて、ロシア語、英語、コードデータの約2兆トークンで最大8,192トークンのコンテキスト長で事前学習されています。

	モデルサイズ	隠れ層次元	レイヤー数	語彙サイズ	コンテキスト長	タスク
deepvk/RuModernBERT-small	35M	384	12	50368	8192	マスク付き言語モデリング
deepvk/RuModernBERT-base [this]	150M	768	22	50368	8192	マスク付き言語モデリング

🚀 クイックスタート

GPUが対応している場合は、transformersを更新し、flash-attnをインストールすることを忘れないでください。

from transformers import AutoTokenizer, AutoModelForMaskedLM

# モデルの準備
model_id = "deepvk/RuModernBERT-base"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForMaskedLM.from_pretrained(model_id, attn_implementation="flash_attention_2")
model = model.eval()

# 入力の準備
text = "Лимончелло это настойка из [MASK]."
inputs = tokenizer(text, return_tensors="pt")
masked_index = inputs["input_ids"][0].tolist().index(tokenizer.mask_token_id)

# 予測
outputs = model(**inputs)

# 予測結果の表示
predicted_token_id = outputs.logits[0, masked_index].argmax(axis=-1)
predicted_token = tokenizer.decode(predicted_token_id)
print("Predicted token:", predicted_token)
# Predicted token:  лимона

🔧 技術詳細

これは1億5000万のパラメータを持つベースバージョンで、ModernBERT-baseと同じ構成です。重要な違いは、このモデルを事前学習するために使用したデータにあります。

トークナイザー

元の構成に従って新しいトークナイザーを学習させました。語彙サイズを維持し、同じ特殊トークンを追加しました。トークナイザーはFineWebのロシア語と英語の混合データで学習されました。

データセット

事前学習には、大規模事前学習、コンテキスト拡張、冷却期の3つの主要な段階が含まれます。元のモデルとは異なり、すべての段階で同じデータを使用していません。2段階目と3段階目には、よりクリーンなデータソースを使用しています。

データソース	段階1	段階2	段階3
FineWeb (En+Ru)	✅	❌	❌
CulturaX-Ru-Edu (Ru)	❌	✅	❌
Wiki (En+Ru)	✅	✅	✅
ArXiv (En)	✅	✅	✅
Book (En+Ru)	✅	✅	✅
Code	✅	✅	✅
StackExchange (En+Ru)	✅	✅	✅
Social (Ru)	✅	✅	✅
合計トークン数	1.7T	250B	50B

コンテキスト長

1段階目では、コンテキスト長を1,024でモデルを学習させました。2段階目と3段階目では、8,192に拡張しました。

📚 ドキュメント

モデルの評価には、encodechkaとRussian Super Glue (RSG)のベンチマークで品質を測定しています。RSGについては、最適なハイパーパラメータをグリッドサーチし、dev分割のメトリクスを報告しています。

公平な比較のために、RuModernBERTモデルは、検索または文埋め込みタスクで学習されていない生のエンコーダとのみ比較しています。

Russian Super Glue

モデル	RCB	PARus	MuSeRC	TERRa	RUSSE	RWSD	DaNetQA	スコア
deepvk/deberta-v1-distill	0.433	0.56	0.625	0.590	0.943	0.569	0.726	0.635
deepvk/deberta-v1-base	0.450	0.61	0.722	0.704	0.948	0.578	0.760	0.682
ai-forever/ruBert-base	0.491	0.61	0.663	0.769	0.962	0.574	0.678	0.678
deepvk/RuModernBERT-small	0.555	0.64	0.746	0.593	0.930	0.574	0.743	0.683
deepvk/RuModernBERT-base [this]	0.556	0.61	0.857	0.818	0.977	0.583	0.758	0.737

Encodechka

	モデルサイズ	STS-B	パラフレーサー	XNLI	センチメント	毒性	不適切性	意図	意図X	FactRu	RuDReC	平均S	平均S+W
cointegrated/rubert-tiny	11.9M	0.66	0.53	0.40	0.71	0.89	0.68	0.70	0.58	0.24	0.34	0.645	0.575
deepvk/deberta-v1-distill	81.5M	0.70	0.57	0.38	0.77	0.98	0.79	0.77	0.36	0.36	0.44	0.665	0.612
deepvk/deberta-v1-base	124M	0.68	0.54	0.38	0.76	0.98	0.80	0.78	0.29	0.29	0.40	0.653	0.591
answerdotai/ModernBERT-base	150M	0.50	0.29	0.36	0.64	0.79	0.62	0.59	0.10	0.22	0.20	0.486	0.431
ai-forever/ruBert-base	178M	0.67	0.53	0.39	0.77	0.98	0.78	0.77	0.38	🥴	🥴	0.659	🥴
DeepPavlov/rubert-base-cased	180M	0.63	0.50	0.38	0.73	0.94	0.74	0.74	0.31	🥴	🥴	0.621	🥴
deepvk/RuModernBERT-small	35M	0.64	0.50	0.36	0.72	0.95	0.73	0.72	0.47	0.28	0.26	0.636	0.563
deepvk/RuModernBERT-base [this]	150M	0.67	0.54	0.35	0.75	0.97	0.76	0.76	0.58	0.37	0.36	0.673	0.611

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で提供されています。

引用

@misc{deepvk2025rumodernbert,
    title={RuModernBERT: Modernized BERT for Russian},
    author={Spirin, Egor and Malashenko, Boris and Sokolov Andrey},
    url={https://huggingface.co/deepvk/rumodernbert-base},
    publisher={Hugging Face}
    year={2025},
}