Camembertv2-baseオープンソースフランス語言語モデル - 大量のコーパスに基づき、フランス語テキスト処理をサポート

ホーム

Camembertv2 Base

almanachによって開発

CamemBERTv2は2750億のフランス語テキストコーパスで事前学習されたフランス語言語モデルで、CamemBERTの第2世代バージョンです。RoBERTaアーキテクチャを採用し、トークナイザーとトレーニングデータを最適化しました。

大規模言語モデル

Transformers

フランス語オープンソースライセンス:MIT #フランス語言語モデル #マスク言語モデリング #大規模コーパス事前学習

ダウンロード数 1,512

リリース時間 : 11/14/2024

モデル概要

CamemBERTv2はよりスマートなフランス語言語モデルで、テキスト補完、品詞タグ付け、固有表現認識などのさまざまな自然言語処理タスクに適しています。

モデル特徴

大規模事前学習データ

2750億のユニークトークンで事前学習されており、元の320億を大幅に上回ります。

新しいトークナイザー

WordPieceトークナイザーを採用し、絵文字をサポートし、数字処理を最適化（2桁のトークンに分割）。

拡張コンテキストウィンドウ

コンテキストウィンドウを1024トークンに拡張し、長文処理能力を向上。

高性能ファインチューニング

品詞タグ付け、固有表現認識などの複数のフランス語NLPタスクで優れたパフォーマンスを発揮。

モデル能力

テキスト補完

品詞タグ付け

依存関係解析

固有表現認識

質問応答システム

テキスト分類

使用事例

自然言語処理

フランス語テキスト補完

フランス語テキストの欠落部分を補完するために使用。

品詞タグ付け

フランス語テキストに品詞タグを付与。

UPOS精度97.66

固有表現認識

フランス語テキスト中の固有表現を識別。

FTB-NER F1スコア91.99

質問応答システム

フランス語質問応答

フランス語質問応答システムの構築に使用。

FQuAD F1スコア80.98

🚀 CamemBERT(a)-v2: 完璧に磨き上げられた、より賢いフランス語モデル

CamemBERTv2は、2750億トークンの大規模なフランス語コーパスで事前学習されたフランス語モデルです。これはRoBERTaアーキテクチャに基づくCamemBERTモデルの第2版です。CamemBERTv2は、32台のH100 GPU上で、マスク率40%のMasked Language Modeling (MLM)目標で3エポックの学習を行いました。学習に使用されたデータセットは、CulturaXプロジェクトからのフランス語OSCARダンプ、HALvestからのフランス語科学文書、およびフランス語ウィキペディアの組み合わせです。

このモデルは、元のCamemBERTモデルの代替品として使用できます。ただし、新しいトークナイザーは元のCamemBERTトークナイザーとは異なるため、モデルを使用するにはFast Tokenizersを使用する必要があります。元のCamemBERTTokenizerがSentencePieceベースであっても、transformersライブラリのCamemBERTTokenizerFastで動作します。

DeBERTaV3に基づく、より強力なフランス語モデルであるCamemBERTav2モデルをこちらで確認してください。

🚀 クイックスタート

このセクションでは、CamemBERTv2モデルの基本的な使い方を説明します。

✨ 主な機能

大規模な事前学習データセット: 2750億の一意のトークン（以前は約320億）
WordPieceに基づく新しいトークナイザー: 32,768トークン、改行とタブ文字の追加、絵文字のサポート、および数値のより良い処理（数値は2桁のトークンに分割）
拡張されたコンテキストウィンドウ: 1024トークン

詳細はCamemBERTv2論文を参照してください。

📦 インストール

このモデルを使用するには、transformersライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

camembertv2 = AutoModelForMaskedLM.from_pretrained("almanach/camembertv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/camembertv2-base")

📚 ドキュメント

微調整結果

データセット: POSタグ付けと依存構文解析 (GSD, Rhapsodie, Sequoia, FSMB)、NER (FTB)、FLUEベンチマーク (XNLI, CLS, PAWS-X)、フランス語質問応答データセット (FQuAD)、ソーシャルメディアNER (Counter-NER)、および医療NER (CAS1, CAS2, E3C, EMEA, MEDLINE)。

モデル	UPOS	LAS	FTB-NER	CLS	PAWS-X	XNLI	F1 (FQuAD)	EM (FQuAD)	Counter-NER	Medical-NER
CamemBERT	97.59	88.69	89.97	94.62	91.36	81.95	80.98	62.51	84.18	70.96
CamemBERTa	97.57	88.55	90.33	94.92	91.67	82.00	81.15	62.01	87.37	71.86
CamemBERT-bio	-	-	-	-	-	-	-	-	-	73.96
CamemBERTv2	97.66	88.64	91.99	95.07	92.00	81.75	80.98	61.35	87.46	72.77
CamemBERTav2	97.71	88.65	93.40	95.63	93.06	84.82	83.04	64.29	89.53	73.98

微調整されたモデルは以下のコレクションで入手できます: CamemBERTv2 Finetuned Models

事前学習コードベース

すべてのv2モデルについて、CamemBERTaリポジトリの事前学習コードベースを使用しています。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

🔧 技術詳細

引用

@misc{antoun2024camembert20smarterfrench,
      title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
      author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
      year={2024},
      eprint={2411.08868},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.08868},
}