M

Moderncamembert Cv2 Base

almanachによって開発
1兆の高品質なフランス語テキストで事前学習されたフランス語言語モデル、ModernBERTのフランス語版
ダウンロード数 232
リリース時間 : 4/11/2025

モデル概要

ModernCamemBERTはマスク言語モデリング(MLM)目標を採用したフランス語Transformerモデルで、48台のH100 GPUで学習され、長文脈処理をサポート

モデル特徴

大規模事前学習
RedPajama-V2、HALvest科学文献、フランス語ウィキペディアを含む1兆トークンの高品質フランス語コーパスで学習
効率的なアーキテクチャ
従来のBERTアーキテクチャに比べ、より高速な学習と推論速度を実現
長文脈サポート
事前学習初期は1024トークンの文脈長、後期には8192トークンまで拡張
厳格なデータフィルタリング
LLama-3 70BベースのBERT分類器による意味的フィルタリングでデータ品質を保証

モデル能力

フランス語テキスト理解
マスク言語モデリング
長文テキスト処理

使用事例

自然言語処理
固有表現認識
フランス語テキストの固有表現認識タスク
FTB-NERデータセットで92.17 F1スコアを達成
テキスト分類
フランス語テキスト分類タスク
CLSデータセットで94.86%の精度を達成
質問応答システム
フランス語質問応答システム開発
FQuADデータセットで81.68 F1スコアを達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase