RobBERT-2023荷蘭語語言模型開源 - 適應語言發展助力荷蘭語應用

首頁

Robbert 2023 Dutch Base

由DTAI-KULeuven開發

RobBERT-2023是基於荷蘭語的最新語言模型，採用RoBERTa架構，使用更新的荷蘭語分詞器和訓練數據，以適應荷蘭語的最新發展變化。

大型語言模型

Transformers

其他開源協議:MIT #荷蘭語大模型 #RoBERTa架構優化 #最新語料訓練

下載量 339

發布時間 : 12/5/2023

模型概述

RobBERT-2023是一個針對荷蘭語優化的語言模型，旨在提供更準確的自然語言處理能力，特別是在處理近期語言變化和新詞彙方面表現優異。

模型特點

性能提升

在DUMB基準測試中超越了之前的robbert-v2-base和robbert-2022-base模型，大型版比BERTje高出18.6分。

語言更新

訓練數據更新至2022年，能夠更好地處理COVID-19大流行引入的新詞彙和世界事實變化。

模型選擇多樣

提供基礎版和大型版（3.55億參數）兩種選擇，滿足不同需求。

架構優勢

基於RoBERTa架構，對原始BERT模型進行了魯棒優化，性能更強大。

模型能力

文本分類

命名實體識別

問答系統

文本生成

情感分析

使用案例

學術研究

荷蘭語語言學研究

用於分析荷蘭語的語言變化和新詞彙使用情況

能夠準確識別和處理最新荷蘭語詞彙

商業應用

客戶服務自動化

用於處理荷蘭語客戶諮詢和反饋

提高客戶服務響應質量和效率

🚀 RobBERT-2023：讓荷蘭語語言模型與時俱進

RobBERT-2023是基於荷蘭語的語言模型，它基於RoBERTa架構，使用荷蘭語分詞器和訓練數據。該模型在最新數據上進行訓練，能更好地適應荷蘭語的發展變化，在相關基準測試中表現出色，為荷蘭語的自然語言處理任務提供了強大支持。

🚀 快速開始

RobBERT-2023和RobBERT都採用了 RoBERTa 架構和預訓練方式，但使用了荷蘭語分詞器和訓練數據。RoBERTa是經過魯棒優化的英文BERT模型，比原始的BERT模型更強大。基於相同的架構，可以使用微調RoBERTa模型的代碼和大多數用於BERT模型的代碼（例如 HuggingFace Transformers 庫提供的代碼）輕鬆對RobBERT進行微調並進行推理。

默認情況下，RobBERT-2023具有在訓練中使用的掩碼語言模型頭。這可以作為一種零樣本方法來填充句子中的掩碼。可以在 RobBERT的Huggingface託管推理API 上免費進行測試。你還可以通過使用HuggingFace的任何 RoBERTa運行器、微調筆記本，將模型名稱更改為 pdelobelle/robbert-2023-dutch-large，為自己的任務創建一個新的預測頭。

from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")

你可以使用 HuggingFace基於BERT的大多數筆記本在你的荷蘭語數據集上微調RobBERT-2022。

✨ 主要特性

性能提升：RobBERT-2023在 DUMB基準測試中超越了robbert-v2-base和robbert-2022-base模型，robbert-2023-dutch-large 更是比BERTje高出18.6分。
模型更新：考慮到荷蘭語自2020年以來的發展變化，如COVID-19大流行引入了大量新詞彙，以及世界事實的變化，RobBERT-2023在2022年的數據上進行訓練，以適應這些變化。
多種模型選擇：除了基礎模型，還發布了一個具有3.55億參數的大型模型（是robbert-2022-base的3倍）。

📦 安裝指南

文檔未提及具體安裝步驟，此部分跳過。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")

📚 詳細文檔

可用荷蘭語BERT模型比較

有多種基於荷蘭語的BERT模型可用於在你的任務上進行微調。以下是一個快速總結，幫助你找到適合你需求的模型：

DTAI-KULeuven/robbert-2023-dutch-large：RobBERT-2023是第一個荷蘭語大型（3.55億參數）模型。它在OSCAR2023上使用新的分詞器進行訓練，採用了我們的Tik-to-Tok方法。
(本模型) DTAI-KULeuven/robbert-2023-dutch-base：RobBERT-2023是在OSCAR2023數據集上使用全新分詞器的新RobBERT模型。它對依賴單詞和/或近期事件信息的任務很有幫助。
DTAI-KULeuven/robbert-2022-dutch-base：RobBERT-2022是在OSCAR2022數據集上進一步預訓練的RobBERT模型。它對依賴單詞和/或近期事件信息的任務很有幫助。
pdelobelle/robbert-v2-dutch-base：多年來，RobBERT模型在大多數語言任務中一直是性能最佳的類BERT模型。它在一個大型荷蘭語網絡爬取數據集（OSCAR）上進行訓練，並使用了更優的 RoBERTa 架構，該架構對原始 BERT模型進行了魯棒優化。
DTAI-KULeuven/robbertje-1-gb-merged：RobBERTje模型是RobBERT的蒸餾版本，大小約為其一半，推理速度快四倍。這有助於為你的語言任務部署更具擴展性的語言模型。

還有 GroNLP/bert-base-dutch-cased “BERTje” 模型。該模型使用過時的基本BERT模型，並在較小的乾淨荷蘭語文本語料庫上進行訓練。由於RobBERT採用了更新的架構以及更大、更接近現實世界的訓練語料庫，大多數研究人員和從業者似乎使用RobBERT模型在他們的語言任務中取得了更高的性能。

如何復現我們論文中的實驗

復現我們論文中的實驗在RobBERT倉庫的README中有詳細描述。預訓練取決於模型，對於RobBERT-2023，這基於我們的Tik-to-Tok方法。

RobBERT名稱的由來

大多數類BERT模型的名稱中都有 “BERT” 這個詞（例如 RoBERTa、ALBERT、CamemBERT 以及許多其他模型）。因此，我們使用其掩碼語言模型對原始的RobBERT模型進行查詢，讓它給自己命名為 \<mask\>bert，使用了各種提示方式進行詢問，它始終稱自己為RobBERT。

我們認為這個名字非常合適，因為RobBERT是一個非常荷蘭化的名字（因此顯然是一個荷蘭語語言模型），並且與它的基礎架構 RoBERTa 有很高的相似性。

由於 “rob” 在荷蘭語中是表示海豹的詞，我們決定畫一隻海豹，並把它打扮成芝麻街的Bert 的樣子，作為 RobBERT的標誌。

🔧 技術細節

文檔未提及具體技術細節，此部分跳過。

📄 許可證

本項目採用MIT許可證。

致謝與引用

RobBERT系列模型由 Pieter Delobelle、Thomas Winters、Bettina Berendt 和 François Remy 創建。

如果你想引用我們的論文或模型，可以使用以下BibTeX：

@misc{delobelle2023robbert2023conversion,
author = {Delobelle, P and Remy, F},
month = {Sep},
organization = {Antwerp, Belgium},
title = {RobBERT-2023: Keeping Dutch Language Models Up-To-Date at a Lower Cost Thanks to Model Conversion},
year = {2023},
startyear = {2023},
startmonth = {Sep},
startday = {22},
finishyear = {2023},
finishmonth = {Sep},
finishday = {22},
venue = {The 33rd Meeting of Computational Linguistics in The Netherlands (CLIN 33)},
day = {22},
publicationstatus = {published},
url= {https://clin33.uantwerpen.be/abstract/robbert-2023-keeping-dutch-language-models-up-to-date-at-a-lower-cost-thanks-to-model-conversion/}
}

@inproceedings{delobelle2022robbert2022,
  doi = {10.48550/ARXIV.2211.08192},
  url = {https://arxiv.org/abs/2211.08192},
  author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina},
  keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use},
  venue = {arXiv},
  year = {2022},
}

@inproceedings{delobelle2020robbert,
    title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
    author = "Delobelle, Pieter  and
      Winters, Thomas  and
      Berendt, Bettina",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
    doi = "10.18653/v1/2020.findings-emnlp.292",
    pages = "3255--3265"
}