CamemBERT av2-baseオープンソースフランス語言モデル - 多様なシナリオのフランス語NLPタスク処理に無料で利用可能

ホーム

Camembertav2 Base

almanachによって開発

CamemBERTav2は2750億のフランス語テキストトークンで事前学習されたフランス語言語モデルで、DebertaV2アーキテクチャを採用し、複数のフランス語NLPタスクで優れた性能を発揮します。

大規模言語モデル

Transformers

フランス語オープンソースライセンス:MIT #フランス語NLP #大規模コーパス事前学習 #DeBERTaアーキテクチャ

ダウンロード数 2,972

リリース時間 : 11/14/2024

モデル概要

第2世代CamemBERTaモデル、フランス語に最適化された言語モデルで、様々な自然言語処理タスクをサポートします。

モデル特徴

大規模事前学習

2750億のフランス語テキストトークンで訓練され、元のモデルの320億トークンを大幅に上回ります

改良されたトークナイザー

新しいWordPieceトークナイザーを構築し、32,768トークンをサポート、数字処理と特殊文字サポートが最適化されています

拡張されたコンテキストウィンドウ

コンテキストウィンドウを1024トークンに拡張し、より長いテキストを処理可能

マルチタスク性能向上

品詞タグ付け、固有表現認識、質問応答などのタスクで前世代モデルを全面的に凌駕

モデル能力

フランス語テキスト理解

特徴抽出

マスク言語モデリング

品詞タグ付け

固有表現認識

テキスト分類

質問応答システム

使用事例

自然言語処理

フランス語テキスト分析

フランス語テキストの品詞タグ付けと依存関係解析に使用

GSD/Rhapsodie/Sequoia/FSMBデータセットで97.71%のUPOS精度を達成

固有表現認識

フランス語テキスト中の固有表現を識別

FTB-NERデータセットで93.40%のF1スコアを達成

質問応答システム

フランス語質問応答システムの構築

FQuADデータセットで83.04%のF1スコアと64.29%のEMスコアを達成

学術研究

科学文献処理

フランス語科学文献のテキスト分析を処理

🚀 CamemBERT(a)-v2: 完璧に磨き上げられた、より賢いフランス語モデル

CamemBERTav2 は、2750億トークンの大規模なフランス語コーパスで事前学習されたフランス語モデルです。これは、DebertaV2アーキテクチャに基づくCamemBERTaモデルの第2版です。CamemBERTav2は、32台のH100 GPU上で2750億トークンに対して20%のマスク率でReplaced Token Detection (RTD) 目的関数を使用して学習されました。学習に使用されたデータセットは、CulturaX Project からのフランス語 OSCAR ダンプ、HALvest からのフランス語科学文書、およびフランス語版Wikipediaの組み合わせです。

このモデルは、元のCamemBERTaモデルの代替品として使用できます。ただし、新しいトークナイザーは元のCamemBERTaトークナイザーとは異なるため、モデルを使用するにはFast Tokenizersを使用する必要があります。元の DebertaV2TokenizerFast がSentencePieceベースであっても、transformers ライブラリの DebertaV2TokenizerFast で動作します。

🚀 クイックスタート

✨ 主な機能

大規模な事前学習データセット: 2750億の一意のトークン（以前は約320億）
WordPieceに基づく新しいトークナイザー: 32,768トークン、改行とタブ文字の追加、絵文字のサポート、および数値のより良い処理（数値は2桁のトークンに分割）
1024トークンの拡張コンテキストウィンドウ

詳細は、CamemBERTv2論文を参照してください。

📦 インストール

このモデルを使用するには、transformers ライブラリをインストールする必要があります。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

camembertav2 = AutoModel.from_pretrained("almanach/camembertav2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/camembertav2-base")

📚 ドキュメント

微調整結果

データセット: POSタグ付けと依存構文解析 (GSD, Rhapsodie, Sequoia, FSMB)、NER (FTB)、FLUEベンチマーク (XNLI, CLS, PAWS-X)、フランス語質問応答データセット (FQuAD)、ソーシャルメディアNER (Counter-NER)、および医療NER (CAS1, CAS2, E3C, EMEA, MEDLINE)。

モデル	UPOS	LAS	FTB-NER	CLS	PAWS-X	XNLI	F1 (FQuAD)	EM (FQuAD)	Counter-NER	Medical-NER
CamemBERT	97.59	88.69	89.97	94.62	91.36	81.95	80.98	62.51	84.18	70.96
CamemBERTa	97.57	88.55	90.33	94.92	91.67	82.00	81.15	62.01	87.37	71.86
CamemBERT-bio	-	-	-	-	-	-	-	-	-	73.96
CamemBERTv2	97.66	88.64	91.99	95.07	92.00	81.75	80.98	61.35	87.46	72.77
CamemBERTav2	97.71	88.65	93.40	95.63	93.06	84.82	83.04	64.29	89.53	73.98

微調整されたモデルは、以下のコレクションで利用できます: CamemBERTav2 Finetuned Models

事前学習コードベース

すべてのv2モデルについて、CamemBERTaリポジトリの事前学習コードベースを使用しています。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

引用

@misc{antoun2024camembert20smarterfrench,
      title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
      author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
      year={2024},
      eprint={2411.08868},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.08868},
}