moderncamembert-cv2-baseオープンソースフランス語言語モデル - 兆単位のフランス語テキストに基づく事前学習

ホーム

Moderncamembert Cv2 Base

almanachによって開発

1兆の高品質なフランス語テキストで事前学習されたフランス語言語モデル、ModernBERTのフランス語版

大規模言語モデル

Transformers

フランス語オープンソースライセンス:MIT #フランス語言語モデル #長文脈処理 #効率的な推論

ダウンロード数 232

リリース時間 : 4/11/2025

モデル概要

ModernCamemBERTはマスク言語モデリング(MLM)目標を採用したフランス語Transformerモデルで、48台のH100 GPUで学習され、長文脈処理をサポート

モデル特徴

大規模事前学習

RedPajama-V2、HALvest科学文献、フランス語ウィキペディアを含む1兆トークンの高品質フランス語コーパスで学習

効率的なアーキテクチャ

従来のBERTアーキテクチャに比べ、より高速な学習と推論速度を実現

長文脈サポート

事前学習初期は1024トークンの文脈長、後期には8192トークンまで拡張

厳格なデータフィルタリング

LLama-3 70BベースのBERT分類器による意味的フィルタリングでデータ品質を保証

モデル能力

フランス語テキスト理解

マスク言語モデリング

長文テキスト処理

使用事例

自然言語処理

固有表現認識

フランス語テキストの固有表現認識タスク

FTB-NERデータセットで92.17 F1スコアを達成

テキスト分類

フランス語テキスト分類タスク

CLSデータセットで94.86%の精度を達成

質問応答システム

フランス語質問応答システム開発

FQuADデータセットで81.68 F1スコアを達成

🚀 ModernCamemBERT

ModernCamemBERT は、1Tトークンの高品質フランス語テキストの大規模コーパスで事前学習されたフランス語モデルです。これは ModernBERT モデルのフランス語版です。ModernCamemBERTは、48台のH100 GPU上で1Tトークンに対して30%のマスク率でマスク言語モデリング（MLM）の目的でトレーニングされました。トレーニングに使用されたデータセットは、ヒューリスティックとセマンティックフィルタリングを使用してフィルタリングされたフランス語の RedPajama-V2、HALvest のフランス語科学文書、およびフランス語版ウィキペディアの組み合わせです。セマンティックフィルタリングは、LLama-3 70Bによって自動的にラベル付けされた文書品質データセットでトレーニングされたBERT分類器を微調整することによって行われました。古い CamemBERTav2 トークナイザーも再利用しています。モデルは最初に1024のコンテキスト長でトレーニングされ、その後事前学習の過程で8192トークンに増やされました。トレーニングプロセスの詳細については、ModernCamemBERT の論文を参照してください。

ModernCamemBERTの目的は、DeBERTaV3フランス語モデルであるCamemBERTaV2と同じデータセットでModernBERTを事前学習させることにより、コントロールされた研究を行い、モデル設計の影響を分離することでした。結果は、以前のモデル世代がサンプル効率と全体的なベンチマーク性能で優れており、ModernBERTの主な利点はトレーニングと推論速度が速いことであることを示しています。ただし、提案された新しいモデルは、BERTやRoBERTa CamemBERT/v2モデルなどの以前のモデルと比較して、有意義なアーキテクチャの改善を提供しています。さらに、高品質の事前学習データは収束を加速させますが、最終的な性能を大幅に向上させないことが観察されており、ベンチマークの飽和の可能性を示唆しています。

私たちは、大きなコンテキスト長または効率的な推論速度を必要とするタスクにはModernCamemBERTモデルを使用することをお勧めします。 その他のタスクには、依然としてほとんどのベンチマークで最良の性能を発揮するCamemBERTaV2モデルを使用する必要があります。

モデルの2つのバージョンをリリースしています。almanach/moderncamembert-base と almanach/moderncamembert-cv2-base です。最初のバージョンは新しい高品質の1Tトークンデータセットでトレーニングされたもので、2番目のバージョンは古いCamemBERTaV2データセットでトレーニングされたものです。2つのモデルは同じアーキテクチャとハイパーパラメータでトレーニングされています。

🚀 クイックスタート

モデルの読み込み

from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

model = AutoModel.from_pretrained("almanach/moderncamembert-cv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-cv2-base")

✨ 主な機能

高品質なフランス語コーパスで事前学習されている。
大きなコンテキスト長（最大8192トークン）に対応している。
トレーニングと推論速度が速い。

📚 ドキュメント

微調整結果

データセット: NER (FTB)、FLUEベンチマーク (XNLI、CLS、PAWS-X)、フランス語質問応答データセット (FQuAD)。

モデル	FTB-NER	CLS	PAWS-X	XNLI	F1 (FQuAD)	EM (FQuAD)
CamemBERT	89.97	94.62	91.36	81.95	80.98	62.51
CamemBERTa	90.33	94.92	91.67	82.00	81.15	62.01
CamemBERTv2	81.99	95.07	92.00	81.75	80.98	61.35
CamemBERTav2	93.40	95.63	93.06	84.82	83.04	64.29
ModernCamemBERT-CV2	92.17	94.86	92.71	82.85	81.68	62.00
ModernCamemBERT	91.33	94.92	92.52	83.62	82.19	62.66

微調整されたモデルは以下のコレクションで入手できます。ModernCamembert Models

事前学習コードベース

すべてのModernCamemBERTモデルには、ModernBERTリポジトリの事前学習コードベースを使用しています。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

🔖 引用

@misc{antoun2025modernbertdebertav3examiningarchitecture,
      title={ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance}, 
      author={Wissam Antoun and Benoît Sagot and Djamé Seddah},
      year={2025},
      eprint={2504.08716},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2504.08716}, 
}