モデル概要
モデル特徴
モデル能力
使用事例
🚀 BERTa: ロベルタベースのカタルーニャ語言語モデル
RoBERTaベースのカタルーニャ語言語モデルで、マスク付き言語モデリングタスクに最適化されています。下流タスクでのファインチューニングも可能です。
🚀 クイックスタート
このモデルは、マスク付き言語モデリングのFill Maskタスクにすぐに使用できます。また、質問応答、テキスト分類、固有表現認識などの下流タスクでのファインチューニングを目的としています。
✨ 主な機能
- RoBERTaベースのカタルーニャ語言語モデル。
- 公開コーパスとクローリングデータを用いてトレーニングされています。
- マスク付き言語モデリングタスクに最適化されています。
- 下流タスクでのファインチューニングが可能です。
📦 インストール
このモデルはHugging FaceのTransformersライブラリを使用して利用できます。以下のコードでモデルとトークナイザーをロードできます。
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/roberta-base-ca-cased")
model = AutoModelForMaskedLM.from_pretrained("PlanTL-GOB-ES/roberta-base-ca-cased")
💻 使用例
基本的な使用法
以下は、パイプラインを使用してマスク付き言語モデリングタスクを実行する例です。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-base-ca-cased')
>>> unmasker("Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.")
[
{
"sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.",
"score": 0.4177263379096985,
"token": 734,
"token_str": " Barcelona"
},
{
"sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.",
"score": 0.10696165263652802,
"token": 3849,
"token_str": " Badalona"
},
{
"sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.",
"score": 0.08135009557008743,
"token": 19349,
"token_str": " Collserola"
},
{
"sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.",
"score": 0.07330769300460815,
"token": 4974,
"token_str": " Terrassa"
},
{
"sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.",
"score": 0.03317456692457199,
"token": 14333,
"token_str": " Gavà"
}
]
📚 ドキュメント
モデルの説明
BERTaは、カタルーニャ語用のトランスフォーマーベースのマスク付き言語モデルです。RoBERTAベースモデルに基づいており、公開コーパスとクローリングデータから収集された中規模のコーパスでトレーニングされています。
このモデルは、当初bsc/roberta-base-ca-casedとして公開されました。
想定される用途と制限
このモデルは、マスク付き言語モデリングのFill Maskタスクにすぐに使用できます(推論APIを試すか、次のセクションを参照してください)。ただし、質問応答、テキスト分類、固有表現認識などの非生成的な下流タスクでのファインチューニングを目的としています。
トレーニング
トレーニングコーパスと前処理
トレーニングコーパスは、ウェブクローリングと公開コーパスから収集された複数のコーパスで構成されています。
公開コーパスは以下の通りです。
- DOGCコーパスのカタルーニャ語部分。カタルーニャ政府の公式公報の文書セット。
- カタルーニャ語オープンサブタイトル。翻訳された映画の字幕コレクション。
- OSCARコーパスのカタルーニャ語部分の非シャッフルバージョン \\cite{suarez2019asynchronous}。単言語コーパスのコレクションで、Common Crawlからフィルタリングされています。
- CaWacコーパス。2013年末に.catトップレベルドメインから構築されたカタルーニャ語のウェブコーパス。非重複バージョン。
- カタルーニャ語ウィキペディア記事。2020年8月18日にダウンロード。
クローリングコーパスは以下の通りです。 6. カタルーニャ語一般クローリング。最も人気のある500の.catと.adドメインをクローリングして取得。 7. カタルーニャ政府クローリング。カタルーニャ政府に属する.gencatドメインとサブドメインをクローリングして取得。 8. ACNコーパス。2015年3月から2020年10月までの22万件のニュース記事が含まれており、カタルーニャ通信社からクローリングされました。
高品質なトレーニングコーパスを取得するために、各コーパスは、文分割、言語検出、不適切な文のフィルタリング、繰り返し内容の重複排除などの一連の操作で前処理されています。このプロセス中、文書の境界は維持されます。最後に、コーパスが連結され、コーパス間でさらにグローバルな重複排除が適用されます。最終的なトレーニングコーパスは約18億トークンで構成されています。
トークン化と事前学習
トレーニングコーパスは、元のRoBERTAモデルで使用されているByte-Pair Encoding (BPE)のバイトバージョンを使用してトークン化されています。語彙サイズは52,000トークンです。
BERTaの事前学習は、RoBERTAベースモデルで採用されているアプローチに従ったマスク付き言語モデルのトレーニングで構成されており、元の論文と同じハイパーパラメータが使用されています。
トレーニングは、16GB DDRAMの16台のNVIDIA V100 GPUで合計48時間行われました。
評価
CLUBベンチマーク
BERTaモデルは、カタルーニャ語理解評価ベンチマーク(CLUB)の下流タスクでファインチューニングされています。このベンチマークは、モデルとともに作成されました。
以下のタスクとそれに関連するデータセットが含まれています。
- 品詞タグ付け(POS)
- Catalan-Ancora: 有名なAncoraコーパスのUniversal Dependencies treebankから。
- 固有表現認識(NER)
- AnCora Catalan 2.0.0: 元のAncoraバージョンから抽出された固有表現で、書籍のタイトルなどの一部の非標準的なものを除外し、標準的なCONLL-IOB形式に変換されています。
- テキスト分類(TC)
- 意味的テキスト類似度(STS)
- カタルーニャ語意味的テキスト類似度: 3000以上の文ペアで構成されており、それらの間の意味的類似度が注釈付けされています。カタルーニャ語テキストコーパスからスクレイピングされました。
- 質問応答(QA)
以下は、データセットのトレーニング/開発/テスト分割です。
タスク (データセット) | 合計 | トレーニング | 開発 | テスト |
---|---|---|---|---|
NER (Ancora) | 13,581 | 10,628 | 1,427 | 1,526 |
POS (Ancora) | 16,678 | 13,123 | 1,709 | 1,846 |
STS | 3,073 | 2,073 | 500 | 500 |
TC (TeCla) | 137,775 | 110,203 | 13,786 | 13,786 |
QA (ViquiQuAD) | 14,239 | 11,255 | 1,492 | 1,429 |
下流タスクでのファインチューニングは、HuggingFaceのTransformersライブラリを使用して行われました。
結果
以下は、CLUBタスクでの評価結果で、多言語のmBERT、XLM-RoBERTaモデル、およびカタルーニャ語WikiBERT-caモデルと比較されています。
タスク | NER (F1) | POS (F1) | STS (Pearson) | TC (精度) | QA (ViquiQuAD) (F1/EM) | QA (XQuAD) (F1/EM) |
---|---|---|---|---|---|---|
BERTa | 88.13 | 98.97 | 79.73 | 74.16 | 86.97/72.29 | 68.89/48.87 |
mBERT | 86.38 | 98.82 | 76.34 | 70.56 | 86.97/72.22 | 67.15/46.51 |
XLM-RoBERTa | 87.66 | 98.89 | 75.40 | 71.68 | 85.50/70.47 | 67.10/46.42 |
WikiBERT-ca | 77.66 | 97.60 | 77.18 | 73.22 | 85.45/70.75 | 65.21/36.60 |
追加情報
作者
Barcelona Supercomputing CenterのText Mining Unit (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細情報については、plantl-gob-es@bsc.esまでメールを送信してください。
著作権
スペイン国のデジタル化と人工知能担当国務省 (SEDIA) による著作権 (2022)
ライセンス情報
資金提供
この研究は、スペイン国のデジタル化と人工知能担当国務省 (SEDIA) がPlan-TLの枠組みで資金提供しています。
引用情報
このモデルを使用する場合は、最新の論文を引用してください。
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデルを使用してシステムやサービスを展開または提供する場合、またはこれらのモデルのユーザーになる場合、その使用に伴うリスクを軽減し、適用される規制(人工知能の使用に関する規制を含む)を遵守する責任があります。
いかなる場合も、モデルの所有者(SEDIA – デジタル化と人工知能担当国務省)または作成者(BSC – Barcelona Supercomputing Center)は、第三者がこれらのモデルを使用した結果に対して責任を負いません。



