RobBERT-2023荷兰语语言模型开源 - 适应语言发展助力荷兰语应用

首页

Robbert 2023 Dutch Base

由 DTAI-KULeuven 开发

RobBERT-2023是基于荷兰语的最新语言模型，采用RoBERTa架构，使用更新的荷兰语分词器和训练数据，以适应荷兰语的最新发展变化。

大型语言模型

Transformers

其他开源协议:MIT #荷兰语大模型 #RoBERTa架构优化 #最新语料训练

下载量 339

发布时间 : 12/5/2023

模型简介

RobBERT-2023是一个针对荷兰语优化的语言模型，旨在提供更准确的自然语言处理能力，特别是在处理近期语言变化和新词汇方面表现优异。

模型特点

性能提升

在DUMB基准测试中超越了之前的robbert-v2-base和robbert-2022-base模型，大型版比BERTje高出18.6分。

语言更新

训练数据更新至2022年，能够更好地处理COVID-19大流行引入的新词汇和世界事实变化。

模型选择多样

提供基础版和大型版（3.55亿参数）两种选择，满足不同需求。

架构优势

基于RoBERTa架构，对原始BERT模型进行了鲁棒优化，性能更强大。

模型能力

文本分类

命名实体识别

问答系统

文本生成

情感分析

使用案例

学术研究

荷兰语语言学研究

用于分析荷兰语的语言变化和新词汇使用情况

能够准确识别和处理最新荷兰语词汇

商业应用

客户服务自动化

用于处理荷兰语客户咨询和反馈

提高客户服务响应质量和效率

🚀 RobBERT-2023：让荷兰语语言模型与时俱进

RobBERT-2023是基于荷兰语的语言模型，它基于RoBERTa架构，使用荷兰语分词器和训练数据。该模型在最新数据上进行训练，能更好地适应荷兰语的发展变化，在相关基准测试中表现出色，为荷兰语的自然语言处理任务提供了强大支持。

🚀 快速开始

RobBERT-2023和RobBERT都采用了 RoBERTa 架构和预训练方式，但使用了荷兰语分词器和训练数据。RoBERTa是经过鲁棒优化的英文BERT模型，比原始的BERT模型更强大。基于相同的架构，可以使用微调RoBERTa模型的代码和大多数用于BERT模型的代码（例如 HuggingFace Transformers 库提供的代码）轻松对RobBERT进行微调并进行推理。

默认情况下，RobBERT-2023具有在训练中使用的掩码语言模型头。这可以作为一种零样本方法来填充句子中的掩码。可以在 RobBERT的Huggingface托管推理API 上免费进行测试。你还可以通过使用HuggingFace的任何 RoBERTa运行器、微调笔记本，将模型名称更改为 pdelobelle/robbert-2023-dutch-large，为自己的任务创建一个新的预测头。

from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")

你可以使用 HuggingFace基于BERT的大多数笔记本在你的荷兰语数据集上微调RobBERT-2022。

✨ 主要特性

性能提升：RobBERT-2023在 DUMB基准测试中超越了robbert-v2-base和robbert-2022-base模型，robbert-2023-dutch-large 更是比BERTje高出18.6分。
模型更新：考虑到荷兰语自2020年以来的发展变化，如COVID-19大流行引入了大量新词汇，以及世界事实的变化，RobBERT-2023在2022年的数据上进行训练，以适应这些变化。
多种模型选择：除了基础模型，还发布了一个具有3.55亿参数的大型模型（是robbert-2022-base的3倍）。

📦 安装指南

文档未提及具体安装步骤，此部分跳过。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")

📚 详细文档

可用荷兰语BERT模型比较

有多种基于荷兰语的BERT模型可用于在你的任务上进行微调。以下是一个快速总结，帮助你找到适合你需求的模型：

DTAI-KULeuven/robbert-2023-dutch-large：RobBERT-2023是第一个荷兰语大型（3.55亿参数）模型。它在OSCAR2023上使用新的分词器进行训练，采用了我们的Tik-to-Tok方法。
(本模型) DTAI-KULeuven/robbert-2023-dutch-base：RobBERT-2023是在OSCAR2023数据集上使用全新分词器的新RobBERT模型。它对依赖单词和/或近期事件信息的任务很有帮助。
DTAI-KULeuven/robbert-2022-dutch-base：RobBERT-2022是在OSCAR2022数据集上进一步预训练的RobBERT模型。它对依赖单词和/或近期事件信息的任务很有帮助。
pdelobelle/robbert-v2-dutch-base：多年来，RobBERT模型在大多数语言任务中一直是性能最佳的类BERT模型。它在一个大型荷兰语网络爬取数据集（OSCAR）上进行训练，并使用了更优的 RoBERTa 架构，该架构对原始 BERT模型进行了鲁棒优化。
DTAI-KULeuven/robbertje-1-gb-merged：RobBERTje模型是RobBERT的蒸馏版本，大小约为其一半，推理速度快四倍。这有助于为你的语言任务部署更具扩展性的语言模型。

还有 GroNLP/bert-base-dutch-cased “BERTje” 模型。该模型使用过时的基本BERT模型，并在较小的干净荷兰语文本语料库上进行训练。由于RobBERT采用了更新的架构以及更大、更接近现实世界的训练语料库，大多数研究人员和从业者似乎使用RobBERT模型在他们的语言任务中取得了更高的性能。

如何复现我们论文中的实验

复现我们论文中的实验在RobBERT仓库的README中有详细描述。预训练取决于模型，对于RobBERT-2023，这基于我们的Tik-to-Tok方法。

RobBERT名称的由来

大多数类BERT模型的名称中都有 “BERT” 这个词（例如 RoBERTa、ALBERT、CamemBERT 以及许多其他模型）。因此，我们使用其掩码语言模型对原始的RobBERT模型进行查询，让它给自己命名为 \<mask\>bert，使用了各种提示方式进行询问，它始终称自己为RobBERT。

我们认为这个名字非常合适，因为RobBERT是一个非常荷兰化的名字（因此显然是一个荷兰语语言模型），并且与它的基础架构 RoBERTa 有很高的相似性。

由于 “rob” 在荷兰语中是表示海豹的词，我们决定画一只海豹，并把它打扮成芝麻街的Bert 的样子，作为 RobBERT的标志。

🔧 技术细节

文档未提及具体技术细节，此部分跳过。

📄 许可证

本项目采用MIT许可证。

致谢与引用

RobBERT系列模型由 Pieter Delobelle、Thomas Winters、Bettina Berendt 和 François Remy 创建。

如果你想引用我们的论文或模型，可以使用以下BibTeX：

@misc{delobelle2023robbert2023conversion,
author = {Delobelle, P and Remy, F},
month = {Sep},
organization = {Antwerp, Belgium},
title = {RobBERT-2023: Keeping Dutch Language Models Up-To-Date at a Lower Cost Thanks to Model Conversion},
year = {2023},
startyear = {2023},
startmonth = {Sep},
startday = {22},
finishyear = {2023},
finishmonth = {Sep},
finishday = {22},
venue = {The 33rd Meeting of Computational Linguistics in The Netherlands (CLIN 33)},
day = {22},
publicationstatus = {published},
url= {https://clin33.uantwerpen.be/abstract/robbert-2023-keeping-dutch-language-models-up-to-date-at-a-lower-cost-thanks-to-model-conversion/}
}

@inproceedings{delobelle2022robbert2022,
  doi = {10.48550/ARXIV.2211.08192},
  url = {https://arxiv.org/abs/2211.08192},
  author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina},
  keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use},
  venue = {arXiv},
  year = {2022},
}

@inproceedings{delobelle2020robbert,
    title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
    author = "Delobelle, Pieter  and
      Winters, Thomas  and
      Berendt, Bettina",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
    doi = "10.18653/v1/2020.findings-emnlp.292",
    pages = "3255--3265"
}