BERTovskiオープンソース言語モデル - ブルガリア語とマケドニア語での訓練を通じてテキスト処理アプリケーションを支援

ホーム

Bertovski

MaCoCuによって開発

BERTovskiはブルガリア語とマケドニア語のテキストで訓練された大規模事前学習言語モデルで、RoBERTaアーキテクチャを採用し、MaCoCuプロジェクトの成果です。

大規模言語モデルその他#ブルガリア語-マケドニア語専用 #RoBERTaアーキテクチャ最適化 #低リソース言語処理

ダウンロード数 28

リリース時間 : 8/11/2022

モデル概要

BERTovskiはブルガリア語とマケドニア語に特化した自然言語処理モデルで、品詞タグ付け、固有表現認識などの多様な言語タスクに適しています。

モデル特徴

多言語サポート

ブルガリア語とマケドニア語に焦点を当てつつ、多言語処理タスクもサポートします。

高品質な訓練データ

訓練データは厳選されており、オリジナルの.bg/.mkドメインの高品質テキストのみを含み、低品質な機械翻訳コンテンツを排除しています。

バランスの取れたデータ分布

マケドニア語データを複製することでコーパスの比率を調整し、両言語のモデル内でのバランスの取れた性能を確保しています。

モデル能力

品詞タグ付け

固有表現認識

常識推論

テキスト理解

使用事例

自然言語処理

ブルガリア語品詞タグ付け

Universal Dependenciesデータセットで品詞タグ付けタスクを実行。

テストセット精度99.1%

マケドニア語固有表現認識

babushka-benchデータセットで固有表現認識を実行。

テストセット精度94.6%

言語理解

常識推論

COPAテストセットで常識推論タスクを実行。

ブルガリア語51.7%、マケドニア語51.8%

🚀 BERTovski

BERTovskiは、ブルガリア語とマケドニア語のテキストで学習された大規模事前学習言語モデルです。RoBERTaアーキテクチャを使用してゼロから学習されました。MaCoCuプロジェクトの一環として開発されました。主な開発者は、グロニンゲン大学のRik van Noordです。

🚀 クイックスタート

BERTovskiは、74GBのテキスト（約70億トークン）で学習されました。バッチサイズ2,048で300,000ステップ（約30エポック）学習されました。

学習と微調整の手順については、Githubリポジトリで詳細に説明されています。このモデルをさらに長時間学習する予定ですので、新しいバージョンにも注目してください！

✨ 主な機能

ブルガリア語とマケドニア語のテキストで学習された大規模事前学習言語モデル。
RoBERTaアーキテクチャを使用してゼロから学習。
MaCoCuプロジェクトの一環として開発。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/BERTovski")
model = AutoModel.from_pretrained("RVN/BERTovski") # PyTorch
model = TFAutoModel.from_pretrained("RVN/BERTovski") # Tensorflow

📚 ドキュメント

データ

学習には、MaCoCu、Oscar、mc4、Wikipediaコーパスに含まれるすべてのブルガリア語とマケドニア語のデータを使用しました。手動分析では、Oscarとmc4のデータが対応するドメイン（.bgまたは.mk）から来ていない場合、多くの場合（不適切に）機械翻訳されていることがわかりました。したがって、元々.bgまたは.mkドメインから来たデータのみを使用することにしました。

データを重複排除した後、合計54.5GBのブルガリア語テキストと9GBのマケドニア語テキストが残りました。ブルガリア語のデータがかなり多かったため、学習中にマケドニア語のデータを単純に2倍にしました。ブルガリア語とマケドニア語の比率が50/50のデータのサブセットで、32,000個の共有語彙を学習しました。

ベンチマーク性能

BERTovskiの性能を、XPOS、UPOS、NERのベンチマークでテストしました。ブルガリア語には、Universal Dependenciesプロジェクトのデータを使用しました。マケドニア語には、babushka-benchプロジェクトで作成されたデータセットを使用しました。また、COPAデータセットのGoogle（ブルガリア語）および人手（マケドニア語）翻訳バージョンでもテストしました（詳細については、Githubリポジトリを参照）。性能を、強力な多言語モデルであるXLMR-baseとXLMR-largeと比較しました。微調整手順の詳細については、Githubを確認できます。

スコアは、3回の実行の平均ですが、COPAについては10回の実行を使用します。UPOS/XPOS/NERについては、すべてのモデルで同じハイパーパラメータ設定を使用し、COPAについては開発セットで学習率を最適化しました。

ブルガリア語

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	99.2	99.4	98.0	98.3	93.2	92.9	56.9
XLM-R-large	99.3	99.4	97.4	97.7	93.7	93.5	53.1
BERTovski	98.8	99.1	97.6	97.8	93.5	93.3	51.7

マケドニア語

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	98.3	98.6	97.3	97.1	92.8	94.8	55.3
XLM-R-large	98.3	98.7	97.7	97.5	93.3	95.1	52.5
BERTovski	97.8	98.1	96.4	96.0	92.8	94.6	51.8

📄 ライセンス

このモデルは、CC0-1.0ライセンスの下で提供されています。

🎉 謝辞

GoogleのTPU Research Cloud (TRC) からのCloud TPUでの研究支援を受けています。著者は、欧州連合のConnecting Europe Facility 2014 - 2020 - CEF Telecomから、助成契約番号INEA/CEF/ICT/A2020/2278341 (MaCoCu) の下で資金提供を受けています。

📖 引用

このモデルを使用する場合は、次の論文を引用してください。

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}