🚀 RobBERT-2023: オランダ語の言語モデルを最新の状態に保つ
RobBERT-2023は、オランダ語のRobBERTモデルの2023年版です。これは、2023年版のOSCARデータセットを使用した、元のpdelobelle/robbert-v2-dutch-baseモデルの新バージョンです。今回はベースモデルに加えて、3億5500万のパラメータを持つ大規模モデル(robbert-2022-baseの3倍)もリリースしています。両モデルの性能は、GroNLPのDUMBベンチマークでrobbert-v2-baseとrobbert-2022-baseをそれぞれ+2.9と+0.9ポイント上回っており、特にrobbert-2023-dutch-large
はBERTjeを+18.6ポイント上回っています。
元のRobBERTモデルは2020年1月にリリースされました。それ以来、オランダ語は大きく進化しており、例えばCOVID-19パンデミックによって突然日常的に使われるようになった新しい単語が数多く登場しました。また、元のモデルが正しいとみなしていた多くの世界の事実も変化しています。これらの変化を反映するために、2022年のデータで学習された新しいオランダ語BERTモデルであるRobBERT 2023をリリースしました。
RobBERT-2023に関するより詳細な情報は、ブログ記事、元のRobBERT論文、およびRobBERTのGitHubリポジトリで見ることができます。
🚀 クイックスタート
使い方
RobBERT-2023とRobBERTはどちらも、RoBERTaアーキテクチャと事前学習を使用していますが、オランダ語用のトークナイザーと学習データが使われています。RoBERTaは、堅牢に最適化された英語のBERTモデルであり、元のBERTモデルよりもさらに強力です。この同じアーキテクチャを持つRobBERTは、RoBERTaを微調整するコードや、HuggingFace Transformersライブラリが提供するBERTモデル用のほとんどのコードを使用して、簡単に微調整と推論を行うことができます。
デフォルトでは、RobBERT-2023は学習時に使用されるマスク言語モデルヘッドを持っています。これは、文章中のマスクを埋めるゼロショットの方法として使用できます。HuggingfaceのRobBERTのホスト推論APIで無料でテストすることができます。また、HuggingFaceのRoBERTaランナーや微調整用のノートブックを使用して、モデル名をpdelobelle/robbert-2023-dutch-large
に変更することで、独自のタスク用の新しい予測ヘッドを作成することもできます。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
その後、HuggingFaceのBERTベースのノートブックのほとんどを使用して、オランダ語のデータセットでRobBERT-2022を微調整することができます。
利用可能なオランダ語BERTモデルの比較
オランダ語のBERTベースのモデルは、タスクの微調整に利用できるものが豊富にあります。以下は、あなたのニーズに合ったモデルを見つけるための簡単なまとめです。
また、GroNLP/bert-base-dutch-casedの「BERTje」モデルもあります。このモデルは古い基本的なBERTモデルを使用しており、クリーンなオランダ語テキストの小さなコーパスで学習されています。RobBERTの最新のアーキテクチャと、より大規模で現実世界に近い学習コーパスのおかげで、ほとんどの研究者や実践者は、RobBERTモデルを使用することで言語タスクでより高い性能を達成できるようです。
論文の実験を再現する方法
論文の実験を再現する方法は、RobBERTリポジトリのREADMEに詳細に記載されています。事前学習はモデルによって異なり、RobBERT-2023の場合はTik-to-Tok法に基づいています。
RobBERTの名前の由来
ほとんどのBERTライクなモデルは、名前にBERTという単語が含まれています(例:RoBERTa、ALBERT、CamemBERTなど多数)。そこで、元のRobBERTモデルのマスク言語モデルを使用して、様々なプロンプトで*\<mask\>bert*という名前を付けるように問い合わせたところ、一貫してRobBERTと自称していました。
RobBERTは非常にオランダ的な名前であり(したがって明らかにオランダ語の言語モデルです)、さらにそのルートアーキテクチャであるRoBERTaとの類似性が高いため、非常にふさわしい名前だと考えました。
"rob" はオランダ語でアザラシを表す単語なので、RobBERTのロゴには、アザラシを描き、シーサミーストリートのBertのように着飾らせました。
🔧 技術詳細
クレジットと引用
RobBERTモデル群は、Pieter Delobelle、Thomas Winters、Bettina Berendt、およびFrançois Remyによって作成されました。論文やモデルを引用する場合は、以下のBibTeXを使用できます。
@misc{delobelle2023robbert2023conversion,
author = {Delobelle, P and Remy, F},
month = {Sep},
organization = {Antwerp, Belgium},
title = {RobBERT-2023: Keeping Dutch Language Models Up-To-Date at a Lower Cost Thanks to Model Conversion},
year = {2023},
startyear = {2023},
startmonth = {Sep},
startday = {22},
finishyear = {2023},
finishmonth = {Sep},
finishday = {22},
venue = {The 33rd Meeting of Computational Linguistics in The Netherlands (CLIN 33)},
day = {22},
publicationstatus = {published},
url= {https://clin33.uantwerpen.be/abstract/robbert-2023-keeping-dutch-language-models-up-to-date-at-a-lower-cost-thanks-to-model-conversion/}
}
@inproceedings{delobelle2022robbert2022,
doi = {10.48550/ARXIV.2211.08192},
url = {https://arxiv.org/abs/2211.08192},
author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina},
keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use},
venue = {arXiv},
year = {2022},
}
@inproceedings{delobelle2020robbert,
title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
author = "Delobelle, Pieter and
Winters, Thomas and
Berendt, Bettina",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
doi = "10.18653/v1/2020.findings-emnlp.292",
pages = "3255--3265"
}
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。