🚀 RobBERT-2023: オランダ語の言語モデルを最新の状態に保つ
RobBERTは、KU Leuven、UGent、TU Berlinによって開発された最先端のオランダ語BERTベースの言語モデルです。RobBERT-2023は、2023年にリリースされたオランダ語のRobBERTモデルの最新版で、元のpdelobelle/robbert-v2-dutch-baseモデルを2023年版のOSCARデータセットで再学習したものです。今回はベースモデルに加えて、3億5500万のパラメータを持つ大規模モデルもリリースしています(robbert-2022-baseの3倍)。両モデルの性能は、DUMBベンチマークでrobbert-v2-baseとrobbert-2022-baseをそれぞれ+2.9と+0.9ポイント上回り、robbert-2023-dutch-large
はBERTjeを+18.6ポイント上回っています。
🚀 クイックスタート
RobBERT-2023は、2020年1月にリリースされたオリジナルのRobBERTモデルを最新化したものです。それ以来、オランダ語は大きく進化し、例えばCOVID-19パンデミックによって多くの新しい単語が生まれました。これらの変化に対応するため、2022年のデータで学習した新しいオランダ語BERTモデルであるRobBERT 2023をリリースしました。RobBERT-2023に関する詳細な情報は、ブログ記事、元のRobBERT論文、RobBERTのGitHubリポジトリで確認できます。
✨ 主な機能
- 高性能:DUMBベンチマークで他のオランダ語モデルを上回る性能を発揮します。
- 大規模モデル:3億5500万のパラメータを持つ大規模モデルを提供します。
- 最新データ:2023年版のOSCARデータセットで学習されており、最新のオランダ語の表現を捉えています。
📦 インストール
RobBERT-2023を使用するには、Hugging Faceのtransformers
ライブラリをインストールする必要があります。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-large")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-large")
高度な使用法
📚 ドキュメント
利用可能なオランダ語BERTモデルの比較
オランダ語のBERTベースのモデルは豊富にあり、以下にその概要をまとめます。
論文の実験を再現する方法
論文の実験を再現する方法は、RobBERTリポジトリのREADMEに詳細が記載されています。RobBERT-2023の事前学習は、Tik-to-Tok法に基づいています。
RobBERTの名前の由来
多くのBERTライクなモデルは名前にBERTという単語が含まれています。オリジナルのRobBERTモデルを、マスク言語モデルを使って*\<mask\>bertという名前にするように問いかけたところ、常にRobBERTと答えました。この名前は、オランダ語の名前であり、またルートアーキテクチャであるRoBERTaに似ているため、非常にふさわしいと考えました。また、"rob"* はオランダ語でアザラシを表す単語なので、RobBERTのロゴにはアザラシを描き、シーサミーストリートのバートのように着飾らせました。
🔧 技術詳細
RobBERT-2023とRobBERTはどちらも、RoBERTaアーキテクチャと事前学習を使用していますが、オランダ語のトークナイザーと学習データを使用しています。RoBERTaは、元のBERTモデルをさらに強化した英語のBERTモデルです。この同じアーキテクチャを持つRobBERTは、RoBERTaをファインチューニングするコードや、BERTモデルに使用されるほとんどのコードを使用して、簡単にファインチューニングと推論を行うことができます。
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
クレジットと引用
RobBERTモデルは、Pieter Delobelle、Thomas Winters、Bettina Berendt、François Remyによって作成されました。論文やモデルを引用する場合は、以下のBibTeXを使用できます。
@misc{delobelle2023robbert2023conversion,
author = {Delobelle, P and Remy, F},
month = {Sep},
organization = {Antwerp, Belgium},
title = {RobBERT-2023: Keeping Dutch Language Models Up-To-Date at a Lower Cost Thanks to Model Conversion},
year = {2023},
startyear = {2023},
startmonth = {Sep},
startday = {22},
finishyear = {2023},
finishmonth = {Sep},
finishday = {22},
venue = {The 33rd Meeting of Computational Linguistics in The Netherlands (CLIN 33)},
day = {22},
publicationstatus = {published},
url= {https://clin33.uantwerpen.be/abstract/robbert-2023-keeping-dutch-language-models-up-to-date-at-a-lower-cost-thanks-to-model-conversion/}
}
@inproceedings{delobelle2022robbert2022,
doi = {10.48550/ARXIV.2211.08192},
url = {https://arxiv.org/abs/2211.08192},
author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina},
keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use},
venue = {arXiv},
year = {2022},
}
@inproceedings{delobelle2020robbert,
title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
author = "Delobelle, Pieter and
Winters, Thomas and
Berendt, Bettina",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
doi = "10.18653/v1/2020.findings-emnlp.292",
pages = "3255--3265"
}