MaltBERTaオープンソース言語モデル - マルタ語の事前学習を基にしたテキスト処理などのアプリケーションの支援

ホーム

Maltberta

MaCoCuによって開発

MaltBERTaはマルタ語テキストの大規模事前学習に基づく言語モデルで、RoBERTaアーキテクチャを採用し、MaCoCuプロジェクトによって開発されました。

大規模言語モデルその他#マルタ語専用 #RoBERTaアーキテクチャ #大規模事前学習

ダウンロード数 26

リリース時間 : 8/11/2022

モデル概要

このモデルはマルタ語に特化して最適化された言語モデルで、様々な自然言語処理タスクに適しています。

モデル特徴

大規模マルタ語事前学習

3.2GBのマルタ語テキスト（4.39億トークン）を使用して訓練

複数ソースデータ統合

MaCoCu、Oscar、mc4コーパスの内容を統合し、重複除去処理を実施

高性能

UPOS/XPOSおよびCOPAベンチマークでXLM-R-base/largeを上回る性能

モデル能力

テキスト理解

品詞タグ付け

言語推論

使用事例

自然言語処理

品詞タグ付け

マルタ語テキストの品詞タグ付けタスクに使用

UPOS/XPOSテストセットで95.8/96.0の精度を達成

言語推論

マルタ語の言語推論タスクに使用

COPAテストセットで53.7の精度を達成

🚀 MaltBERTa

MaltBERTaは、マルタ語のテキストで学習された大規模事前学習言語モデルです。RoBERTaアーキテクチャを使用してゼロから学習されました。これはMaCoCuプロジェクトの一環として開発されました。主な開発者は、グロニンゲン大学のRik van Noordです。

🚀 クイックスタート

MaltBERTaは、3.2GBのテキスト（439Mトークンに相当）で学習されました。バッチサイズ1,024で100,000ステップ学習されました。学習と微調整の手順については、Githubリポジトリで詳細に説明されています。

✨ 主な機能

MaltBERTaは、マルタ語のテキストに特化した大規模事前学習言語モデルです。RoBERTaアーキテクチャを使用してゼロから学習され、マルタ語の自然言語処理タスクに適しています。

📦 インストール

MaltBERTaを使用するには、transformersライブラリをインストールする必要があります。以下のコードを使用して、トークナイザーとモデルをロードできます。

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/MaltBERTa")
model = AutoModel.from_pretrained("RVN/MaltBERTa") # PyTorch
model = TFAutoModel.from_pretrained("RVN/MaltBERTa") # Tensorflow

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/MaltBERTa")
model = AutoModel.from_pretrained("RVN/MaltBERTa") # PyTorch
model = TFAutoModel.from_pretrained("RVN/MaltBERTa") # Tensorflow

📚 ドキュメント

データ

学習には、MaCoCu、Oscar、mc4コーパスに含まれるすべてのマルタ語データを使用しました。データを重複排除した後、合計3.2GBのテキストが残りました。Oscarとmc4の.mtドメインからのデータのみで学習する実験も行いましたが、すべてのデータを組み込むことでより良いパフォーマンスが得られました。

ベンチマーク性能

MaltBERTaの性能は、Universal DependenciesプロジェクトのUPOSとXPOSベンチマークでテストされました。さらに、Google翻訳版のCOPAデータセットでもテストしています（詳細はGithubリポジトリを参照）。性能を、強力な多言語モデルであるXLMR-baseとXLMR-largeと比較していますが、これらのモデルの学習言語にはマルタ語は含まれていません。また、最近導入されたマルタ語モデルであるBERTu、mBERTu、および独自のMaltBERTaとも比較しています。微調整手順の詳細については、Githubをチェックアウトできます。

Property	Details
Model Type	MaltBERTaは、RoBERTaアーキテクチャを使用してゼロから学習された大規模事前学習言語モデルです。
Training Data	学習には、MaCoCu、Oscar、mc4コーパスに含まれるすべてのマルタ語データを使用しました。データを重複排除した後、合計3.2GBのテキストが残りました。

	UPOS	UPOS	XPOS	XPOS	COPA
	Dev	Test	Dev	Test	Test
XLM-R-base	93.6	93.2	93.4	93.2	52.2
XLM-R-large	94.9	94.4	95.1	94.7	54.0
BERTu	97.5	97.6	95.7	95.8	55.6
mBERTu	97.7	97.8	97.9	98.1	52.6
MaltBERTa	95.7	95.8	96.1	96.0	53.7

🔧 技術詳細

MaltBERTaは、RoBERTaアーキテクチャを使用してゼロから学習されました。学習には、3.2GBのテキスト（439Mトークンに相当）を使用し、100,000ステップでバッチサイズ1,024で学習されました。

📄 ライセンス

このモデルは、CC0-1.0ライセンスの下で提供されています。

🙏 謝辞

この研究は、GoogleのTPU Research Cloud (TRC) からのCloud TPUでサポートされています。著者は、欧州連合のConnecting Europe Facility 2014 - 2020 - CEF Telecomから、助成契約番号INEA/CEF/ICT/A2020/2278341 (MaCoCu) の下で資金提供を受けています。

📖 引用

このモデルを使用する場合は、以下の論文を引用してください。

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}