🚀 RobBERT-2023:让荷兰语语言模型与时俱进
RobBERT-2023是基于荷兰语的语言模型,它基于RoBERTa架构,使用荷兰语分词器和训练数据。该模型在最新数据上进行训练,能更好地适应荷兰语的发展变化,在相关基准测试中表现出色,为荷兰语的自然语言处理任务提供了强大支持。
🚀 快速开始
RobBERT-2023和RobBERT都采用了 RoBERTa 架构和预训练方式,但使用了荷兰语分词器和训练数据。RoBERTa是经过鲁棒优化的英文BERT模型,比原始的BERT模型更强大。基于相同的架构,可以使用 微调RoBERTa模型的代码 和大多数用于BERT模型的代码(例如 HuggingFace Transformers 库提供的代码)轻松对RobBERT进行微调并进行推理。
默认情况下,RobBERT-2023具有在训练中使用的掩码语言模型头。这可以作为一种零样本方法来填充句子中的掩码。可以在 RobBERT的Huggingface托管推理API 上免费进行测试。你还可以通过使用HuggingFace的任何 RoBERTa运行器、微调笔记本,将模型名称更改为 pdelobelle/robbert-2023-dutch-large
,为自己的任务创建一个新的预测头。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
你可以使用 HuggingFace基于BERT的大多数笔记本 在你的荷兰语数据集上微调RobBERT-2022。
✨ 主要特性
- 性能提升:RobBERT-2023在 DUMB基准测试 中超越了robbert-v2-base和robbert-2022-base模型,
robbert-2023-dutch-large
更是比BERTje高出18.6分。
- 模型更新:考虑到荷兰语自2020年以来的发展变化,如COVID-19大流行引入了大量新词汇,以及世界事实的变化,RobBERT-2023在2022年的数据上进行训练,以适应这些变化。
- 多种模型选择:除了基础模型,还发布了一个具有3.55亿参数的大型模型(是robbert-2022-base的3倍)。
📦 安装指南
文档未提及具体安装步骤,此部分跳过。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
📚 详细文档
可用荷兰语BERT模型比较
有多种基于荷兰语的BERT模型可用于在你的任务上进行微调。以下是一个快速总结,帮助你找到适合你需求的模型:
还有 GroNLP/bert-base-dutch-cased “BERTje” 模型。该模型使用过时的基本BERT模型,并在较小的干净荷兰语文本语料库上进行训练。由于RobBERT采用了更新的架构以及更大、更接近现实世界的训练语料库,大多数研究人员和从业者似乎使用RobBERT模型在他们的语言任务中取得了更高的性能。
如何复现我们论文中的实验
复现我们论文中的实验 在RobBERT仓库的README中有详细描述。预训练取决于模型,对于RobBERT-2023,这基于 我们的Tik-to-Tok方法。
RobBERT名称的由来
大多数类BERT模型的名称中都有 “BERT” 这个词(例如 RoBERTa、ALBERT、CamemBERT 以及 许多其他模型)。因此,我们使用其掩码语言模型对原始的RobBERT模型进行查询,让它给自己命名为 \<mask\>bert,使用了 各种 提示 方式 进行询问,它始终称自己为RobBERT。
我们认为这个名字非常合适,因为RobBERT是一个 非常荷兰化的名字(因此显然是一个荷兰语语言模型),并且与它的基础架构 RoBERTa 有很高的相似性。
由于 “rob” 在荷兰语中是表示海豹的词,我们决定画一只海豹,并把它打扮成 芝麻街的Bert 的样子,作为 RobBERT的标志。
🔧 技术细节
文档未提及具体技术细节,此部分跳过。
📄 许可证
本项目采用MIT许可证。
致谢与引用
RobBERT系列模型由 Pieter Delobelle、Thomas Winters、Bettina Berendt 和 François Remy 创建。
如果你想引用我们的论文或模型,可以使用以下BibTeX:
@misc{delobelle2023robbert2023conversion,
author = {Delobelle, P and Remy, F},
month = {Sep},
organization = {Antwerp, Belgium},
title = {RobBERT-2023: Keeping Dutch Language Models Up-To-Date at a Lower Cost Thanks to Model Conversion},
year = {2023},
startyear = {2023},
startmonth = {Sep},
startday = {22},
finishyear = {2023},
finishmonth = {Sep},
finishday = {22},
venue = {The 33rd Meeting of Computational Linguistics in The Netherlands (CLIN 33)},
day = {22},
publicationstatus = {published},
url= {https://clin33.uantwerpen.be/abstract/robbert-2023-keeping-dutch-language-models-up-to-date-at-a-lower-cost-thanks-to-model-conversion/}
}
@inproceedings{delobelle2022robbert2022,
doi = {10.48550/ARXIV.2211.08192},
url = {https://arxiv.org/abs/2211.08192},
author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina},
keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use},
venue = {arXiv},
year = {2022},
}
@inproceedings{delobelle2020robbert,
title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
author = "Delobelle, Pieter and
Winters, Thomas and
Berendt, Bettina",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
doi = "10.18653/v1/2020.findings-emnlp.292",
pages = "3255--3265"
}