ModernCamemBERTオープンソースフランス語言モデル - 1Tのコーパスに基づき、長文処理が迅速かつ正確

Home

Moderncamembert Base

Developed by almanach

ModernCamemBERTは1Tの高品質なフランス語テキストコーパスで事前学習されたフランス語言語モデルで、ModernBERTのフランス語版であり、長いコンテキストと効率的な推論速度に焦点を当てています。

大規模言語モデル

Transformers

FrenchOpen Source License:MIT #フランス語長文処理 #効率的な推論 #マスク言語モデリング

Downloads 213

Release Time : 4/11/2025

Model Overview

ModernCamemBERTはマスク言語モデリング(MLM)目標で訓練されたフランス語言語モデルで、長いコンテキストや効率的な推論速度が必要なタスクに適しています。

Model Features

高品質な事前学習データ

1Tトークンの高品質なフランス語テキストコーパス（RedPajama-V2、フランス語科学文献、フランス語ウィキペディアを含む）で訓練されています。

長いコンテキストのサポート

最初は1024トークンのコンテキスト長で訓練され、その後事前学習段階で8192トークンに拡張されました。

効率的な推論

従来のアーキテクチャに比べてより高速な訓練と推論速度を実現しています。

意味的フィルタリング

LLama-3 70Bで自動アノテーションされた文書品質データセットで訓練されたBERT分類器による意味的フィルタリングを採用しています。

Model Capabilities

フランス語テキスト理解

マスク言語モデリング

長いコンテキスト処理

Use Cases

自然言語処理

固有表現認識

フランス語テキストにおける固有表現認識タスク

FTB-NERデータセットで91.33 F1スコアを達成

テキスト分類

フランス語テキスト分類タスク

CLSデータセットで94.92%の精度を達成

意味的類似性

フランス語テキストの意味的類似性判断

PAWS-Xデータセットで92.52%の精度を達成

質問応答システム

フランス語質問応答

フランス語読解質問応答タスク

FQuADデータセットで82.19 F1スコアと62.66 EMスコアを達成

🚀 ModernCamemBERT

ModernCamemBERTは、高品質なフランス語テキストの1Tトークンの大規模コーパスで事前学習されたフランス語モデルです。これは、ModernBERTモデルのフランス語版です。

🚀 クイックスタート

ModernCamemBERT は、1Tトークンの高品質なフランス語テキストの大規模コーパスで事前学習されたフランス語モデルです。これは、ModernBERT モデルのフランス語版です。ModernCamemBERTは、48台のH100 GPU上で1Tトークンに対して30%のマスク率でマスク言語モデリング（MLM）の目的で学習されました。学習に使用されたデータセットは、ヒューリスティックとセマンティックフィルタリングを使用してフィルタリングされたフランス語の RedPajama-V2、HALvest からのフランス語の科学文書、およびフランス語のウィキペディアの組み合わせです。セマンティックフィルタリングは、LLama-3 70Bによって自動的にラベル付けされた文書品質データセットで学習されたBERT分類器を微調整することによって行われました。古い CamemBERTav2 トークナイザーも再利用しています。モデルは最初に1024のコンテキスト長で学習され、その後事前学習の後半で8192トークンに増やされました。学習プロセスの詳細については、ModernCamemBERT 論文を参照してください。

ModernCamemBERTの目標は、DeBERTaV3フランス語モデルであるCamemBERTaV2と同じデータセットでModernBERTを事前学習することによって、モデル設計の影響を分離したコントロールされた研究を行うことでした。結果は、以前のモデル世代がサンプル効率と全体的なベンチマーク性能において優れており、ModernBERTの主な利点は学習と推論の速度が速いことであることを示しています。ただし、提案された新しいモデルは、BERTやRoBERTa CamemBERT/v2モデルなどの以前のモデルと比較して、有意義なアーキテクチャの改善を提供しています。さらに、高品質の事前学習データは収束を加速させますが、最終的な性能を大幅に改善するわけではないことが観察されており、ベンチマークの飽和の可能性を示唆しています。

私たちは、大きなコンテキスト長または効率的な推論速度が必要なタスクにはModernCamemBERTモデルを使用することをお勧めします。 その他のタスクには、依然としてほとんどのベンチマークで最良の性能を発揮するCamemBERTaV2モデルを使用する必要があります。

私たちは、モデルの2つのバージョン、almanach/moderncamembert-base と almanach/moderncamembert-cv2-base をリリースしています。最初のバージョンは、新しい高品質の1Tトークンデータセットで学習されたもので、2番目のバージョンは古いCamemBERTaV2データセットで学習されたものです。2つのモデルは同じアーキテクチャとハイパーパラメータで学習されています。

✨ 主な機能

高品質なフランス語テキストの大規模コーパスで事前学習されたフランス語モデル。
学習と推論の速度が速い。
大きなコンテキスト長をサポートする。

📦 インストール

このセクションでは、具体的なインストール手順が提供されていません。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

model = AutoModel.from_pretrained("almanach/moderncamembert-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-base")

📚 ドキュメント

微調整結果

データセット: NER (FTB)、FLUEベンチマーク (XNLI、CLS、PAWS-X)、フランス語質問応答データセット (FQuAD)。

モデル	FTB-NER	CLS	PAWS-X	XNLI	F1 (FQuAD)	EM (FQuAD)
CamemBERT	89.97	94.62	91.36	81.95	80.98	62.51
CamemBERTa	90.33	94.92	91.67	82.00	81.15	62.01
CamemBERTv2	81.99	95.07	92.00	81.75	80.98	61.35
CamemBERTav2	93.40	95.63	93.06	84.82	83.04	64.29
ModernCamemBERT-CV2	92.17	94.86	92.71	82.85	81.68	62.00
ModernCamemBERT	91.33	94.92	92.52	83.62	82.19	62.66

微調整されたモデルは、次のコレクションで利用可能です: ModernCamembert Models

事前学習コードベース

すべてのModernCamemBERTモデルには、ModernBERTリポジトリの事前学習コードベースを使用しています。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

引用

@misc{antoun2025modernbertdebertav3examiningarchitecture,
      title={ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance}, 
      author={Wissam Antoun and Benoît Sagot and Djamé Seddah},
      year={2025},
      eprint={2504.08716},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2504.08716}, 
}