Robbert-2023-dutch-large開源荷蘭語語言模型 - 助力荷蘭語相關內容處理

首頁

Robbert 2023 Dutch Large

由DTAI-KULeuven開發

RobBERT-2023是基於RoBERTa架構的荷蘭語語言模型，由魯汶大學、根特大學和柏林工業大學開發，是荷蘭語最先進的語言模型之一。

大型語言模型

Transformers

其他開源協議:MIT #荷蘭語預訓練 #大語言模型 #多領域適應

下載量 627

發布時間 : 12/5/2023

模型概述

RobBERT-2023是荷蘭RobBERT模型的2023年版本，基於OSCAR 2023數據集訓練，提供基礎版和大型版兩個版本，在荷蘭語自然語言處理任務中表現優異。

模型特點

模型能力

文本理解

文本生成

文本分類

命名實體識別

問答系統

使用案例

學術研究

荷蘭語NLP研究

用於荷蘭語自然語言處理相關研究

在DUMB基準測試中表現優異

商業應用

荷蘭語客服系統

構建荷蘭語智能客服和問答系統

🚀 RobBERT-2023：讓荷蘭語語言模型與時俱進

RobBERT-2023 是基於荷蘭語的語言模型，由魯汶大學、根特大學和柏林工業大學聯合開發。它在原有模型基礎上進行了更新和優化，能更好地適應荷蘭語的發展變化，在相關基準測試中表現出色。

RobBERT-2023: A Dutch RoBERTa-based Language Model

🚀 快速開始

RobBERT 是由魯汶大學、根特大學和柏林工業大學開發的最先進的基於荷蘭語 BERT 的語言模型。

RobBERT-2023 是荷蘭語 RobBERT 模型的 2023 年版本。它是原始 pdelobelle/robbert-v2-dutch-base 模型在 2023 版 OSCAR 數據集上的新版本。我們發佈了一個基礎模型，並且這次還發布了一個額外的大模型，擁有 3.55 億個參數（是 robbert-2022-base 的 3 倍）。我們對這兩個模型的性能尤其感到自豪，在格羅寧根自然語言處理實驗室（GroNLP）的 DUMB 基準測試中，它們分別比 robbert-v2-base 和 robbert-2022-base 模型高出 2.9 分和 0.9 分。此外，robbert-2023-dutch-large 還比 BERTje 高出 18.6 分。

原始的 RobBERT 模型於 2020 年 1 月發佈。從那時起，荷蘭語發生了很大的變化，例如 COVID-19 大流行引入了大量新詞彙，這些詞彙突然開始被日常使用。此外，許多原始模型認為正確的世界事實也發生了變化。為了適應這種和其他使用上的變化，我們發佈了一個基於 2022 年數據訓練的新荷蘭語 BERT 模型：RobBERT 2023。

關於 RobBERT-2023 的更深入信息可以在我們的博客文章、原始 RobBERT 論文和 RobBERT Github 倉庫中找到。

✨ 主要特性

性能提升：在 DUMB 基準測試中，超越了之前的 robbert-v2-base 和 robbert-2022-base 模型，robbert-2023-dutch-large 更是比 BERTje 高出 18.6 分。
版本更新：基於 2023 版 OSCAR 數據集訓練，適應荷蘭語的最新發展變化。
模型多樣：發佈了基礎模型和擁有 3.55 億參數的大模型，滿足不同需求。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-large")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-large")

你可以使用 HuggingFace 基於 BERT 的大部分筆記本在你的荷蘭語數據集上微調 RobBERT-2022。

📚 詳細文檔

可用荷蘭語 BERT 模型比較

有多種基於荷蘭語 BERT 的模型可用於你的任務微調。以下是一個快速總結，幫助你找到適合需求的模型：

(本模型) DTAI-KULeuven/robbert-2023-dutch-large：RobBERT-2023 是第一個荷蘭語大模型（3.55 億參數）。它使用新的分詞器在 OSCAR2023 上訓練，採用了我們的 Tik-to-Tok 方法。
DTAI-KULeuven/robbert-2023-dutch-base：RobBERT-2023 是在 OSCAR2023 數據集上的新 RobBERT 模型，使用了全新的分詞器。它對依賴單詞和/或近期事件信息的任務很有幫助。
DTAI-KULeuven/robbert-2022-dutch-base：RobBERT-2022 是在 OSCAR2022 數據集上進一步預訓練的 RobBERT 模型。它對依賴單詞和/或近期事件信息的任務很有幫助。
pdelobelle/robbert-v2-dutch-base：多年來，RobBERT 模型在大多數語言任務中一直是表現最好的類似 BERT 的模型。它在一個大型荷蘭語網絡爬取數據集（OSCAR）上訓練，並使用了更優的 RoBERTa 架構，該架構對原始 BERT 模型進行了穩健優化。
DTAI-KULeuven/robbertje-1-gb-merged：RobBERTje 模型是 RobBERT 的蒸餾版本，大小約為其一半，推理速度快四倍。這有助於為你的語言任務部署更具擴展性的語言模型。

還有 GroNLP/bert-base-dutch-cased “BERTje” 模型。該模型使用過時的基本 BERT 模型，並且在較小的乾淨荷蘭語文本語料庫上訓練。由於 RobBERT 採用了更新的架構以及更大、更接近真實世界的訓練語料庫，大多數研究人員和從業者似乎在他們的語言任務中使用 RobBERT 模型能取得更高的性能。

如何復現我們論文中的實驗

復現我們論文中的實驗在 RobBERT 倉庫的 README 中有詳細描述。預訓練取決於模型，對於 RobBERT-2023，這基於我們的 Tik-to-Tok 方法。

RobBERT 名稱由來

大多數類似 BERT 的模型名稱中都有 BERT 這個詞（例如 RoBERTa、ALBERT、CamemBERT 以及許多其他模型）。因此，我們使用其掩碼語言模型對原始的 RobBERT 模型進行查詢，讓它以 \<mask\>bert 的形式給自己命名，使用了各種提示方式，它始終稱自己為 RobBERT。

我們認為這個名字非常合適，因為 RobBERT 是一個非常荷蘭化的名字（因此顯然是一個荷蘭語語言模型），並且與它的基礎架構 RoBERTa 有很高的相似性。

由於 “rob” 在荷蘭語中是表示海豹的詞，我們決定畫一隻海豹，並把它打扮成芝麻街的伯特的樣子，作為 RobBERT 標誌。

📄 許可證

本項目採用 MIT 許可證。

🔧 技術細節

RobBERT-2023 和 RobBERT 都使用 RoBERTa 架構和預訓練方法，但使用荷蘭語分詞器和訓練數據。RoBERTa 是經過穩健優化的英語 BERT 模型，比原始 BERT 模型更強大。由於採用了相同的架構，RobBERT 可以使用微調 RoBERTa 模型的代碼和大多數用於 BERT 模型的代碼輕鬆進行微調並推理，例如 HuggingFace Transformers 庫提供的代碼。

默認情況下，RobBERT-2023 具有訓練中使用的掩碼語言模型頭。這可以作為一種零樣本方法來填充句子中的掩碼。你可以在 RobBERT 在 Huggingface 的託管推理 API 上免費測試。你還可以使用 HuggingFace 的任何 RoBERTa 運行器、他們的微調筆記本，通過將模型名稱更改為 pdelobelle/robbert-2023-dutch-large 為你自己的任務創建一個新的預測頭。

🔗 引用信息

RobBERT 模型套件由 Pieter Delobelle、Thomas Winters、Bettina Berendt 和 François Remy 創建。如果你想引用我們的論文或模型，可以使用以下 BibTeX：

@misc{delobelle2023robbert2023conversion,
author = {Delobelle, P and Remy, F},
month = {Sep},
organization = {Antwerp, Belgium},
title = {RobBERT-2023: Keeping Dutch Language Models Up-To-Date at a Lower Cost Thanks to Model Conversion},
year = {2023},
startyear = {2023},
startmonth = {Sep},
startday = {22},
finishyear = {2023},
finishmonth = {Sep},
finishday = {22},
venue = {The 33rd Meeting of Computational Linguistics in The Netherlands (CLIN 33)},
day = {22},
publicationstatus = {published},
url= {https://clin33.uantwerpen.be/abstract/robbert-2023-keeping-dutch-language-models-up-to-date-at-a-lower-cost-thanks-to-model-conversion/}
}

@inproceedings{delobelle2022robbert2022,
  doi = {10.48550/ARXIV.2211.08192},
  url = {https://arxiv.org/abs/2211.08192},
  author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina},
  keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use},
  venue = {arXiv},
  year = {2022},
}

@inproceedings{delobelle2020robbert,
    title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
    author = "Delobelle, Pieter  and
      Winters, Thomas  and
      Berendt, Bettina",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
    doi = "10.18653/v1/2020.findings-emnlp.292",
    pages = "3255--3265"
}