模型概述
模型特點
模型能力
使用案例
🚀 RobBERT-2023:讓荷蘭語語言模型與時俱進
RobBERT-2023 是基於荷蘭語的語言模型,由魯汶大學、根特大學和柏林工業大學聯合開發。它在原有模型基礎上進行了更新和優化,能更好地適應荷蘭語的發展變化,在相關基準測試中表現出色。
🚀 快速開始
RobBERT 是由魯汶大學、根特大學和柏林工業大學開發的最先進的基於荷蘭語 BERT 的語言模型。
RobBERT-2023 是 荷蘭語 RobBERT 模型 的 2023 年版本。它是原始 pdelobelle/robbert-v2-dutch-base 模型在 2023 版 OSCAR 數據集上的新版本。我們發佈了一個基礎模型,並且這次還發布了一個額外的大模型,擁有 3.55 億個參數(是 robbert-2022-base 的 3 倍)。我們對這兩個模型的性能尤其感到自豪,在格羅寧根自然語言處理實驗室(GroNLP)的 DUMB 基準測試 中,它們分別比 robbert-v2-base 和 robbert-2022-base 模型高出 2.9 分和 0.9 分。此外,robbert-2023-dutch-large
還比 BERTje 高出 18.6 分。
原始的 RobBERT 模型於 2020 年 1 月發佈。從那時起,荷蘭語發生了很大的變化,例如 COVID-19 大流行引入了大量新詞彙,這些詞彙突然開始被日常使用。此外,許多原始模型認為正確的世界事實也發生了變化。為了適應這種和其他使用上的變化,我們發佈了一個基於 2022 年數據訓練的新荷蘭語 BERT 模型:RobBERT 2023。
關於 RobBERT-2023 的更深入信息可以在我們的 博客文章、原始 RobBERT 論文 和 RobBERT Github 倉庫 中找到。
✨ 主要特性
- 性能提升:在 DUMB 基準測試 中,超越了之前的 robbert-v2-base 和 robbert-2022-base 模型,
robbert-2023-dutch-large
更是比 BERTje 高出 18.6 分。 - 版本更新:基於 2023 版 OSCAR 數據集訓練,適應荷蘭語的最新發展變化。
- 模型多樣:發佈了基礎模型和擁有 3.55 億參數的大模型,滿足不同需求。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-large")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-large")
你可以使用 HuggingFace 基於 BERT 的大部分筆記本 在你的荷蘭語數據集上微調 RobBERT-2022。
📚 詳細文檔
可用荷蘭語 BERT 模型比較
有多種基於荷蘭語 BERT 的模型可用於你的任務微調。以下是一個快速總結,幫助你找到適合需求的模型:
- (本模型) DTAI-KULeuven/robbert-2023-dutch-large:RobBERT-2023 是第一個荷蘭語大模型(3.55 億參數)。它使用新的分詞器在 OSCAR2023 上訓練,採用了 我們的 Tik-to-Tok 方法。
- DTAI-KULeuven/robbert-2023-dutch-base:RobBERT-2023 是在 OSCAR2023 數據集上的新 RobBERT 模型,使用了全新的分詞器。它對依賴單詞和/或近期事件信息的任務很有幫助。
- DTAI-KULeuven/robbert-2022-dutch-base:RobBERT-2022 是在 OSCAR2022 數據集上進一步預訓練的 RobBERT 模型。它對依賴單詞和/或近期事件信息的任務很有幫助。
- pdelobelle/robbert-v2-dutch-base:多年來,RobBERT 模型在大多數語言任務中一直是表現最好的類似 BERT 的模型。它在一個大型荷蘭語網絡爬取數據集(OSCAR)上訓練,並使用了更優的 RoBERTa 架構,該架構對原始 BERT 模型 進行了穩健優化。
- DTAI-KULeuven/robbertje-1-gb-merged:RobBERTje 模型是 RobBERT 的蒸餾版本,大小約為其一半,推理速度快四倍。這有助於為你的語言任務部署更具擴展性的語言模型。
還有 GroNLP/bert-base-dutch-cased “BERTje” 模型。該模型使用過時的基本 BERT 模型,並且在較小的乾淨荷蘭語文本語料庫上訓練。由於 RobBERT 採用了更新的架構以及更大、更接近真實世界的訓練語料庫,大多數研究人員和從業者似乎在他們的語言任務中使用 RobBERT 模型能取得更高的性能。
如何復現我們論文中的實驗
復現我們論文中的實驗 在 RobBERT 倉庫的 README 中有詳細描述。預訓練取決於模型,對於 RobBERT-2023,這基於 我們的 Tik-to-Tok 方法。
RobBERT 名稱由來
大多數類似 BERT 的模型名稱中都有 BERT 這個詞(例如 RoBERTa、ALBERT、CamemBERT 以及 許多其他模型)。因此,我們使用其掩碼語言模型對原始的 RobBERT 模型進行查詢,讓它以 \<mask\>bert 的形式給自己命名,使用了 各種 提示 方式,它始終稱自己為 RobBERT。
我們認為這個名字非常合適,因為 RobBERT 是一個 非常荷蘭化的名字(因此顯然是一個荷蘭語語言模型),並且與它的基礎架構 RoBERTa 有很高的相似性。
由於 “rob” 在荷蘭語中是表示海豹的詞,我們決定畫一隻海豹,並把它打扮成 芝麻街的伯特 的樣子,作為 RobBERT 標誌。
📄 許可證
本項目採用 MIT 許可證。
🔧 技術細節
RobBERT-2023 和 RobBERT 都使用 RoBERTa 架構和預訓練方法,但使用荷蘭語分詞器和訓練數據。RoBERTa 是經過穩健優化的英語 BERT 模型,比原始 BERT 模型更強大。由於採用了相同的架構,RobBERT 可以使用 微調 RoBERTa 模型的代碼 和大多數用於 BERT 模型的代碼輕鬆進行微調並推理,例如 HuggingFace Transformers 庫提供的代碼。
默認情況下,RobBERT-2023 具有訓練中使用的掩碼語言模型頭。這可以作為一種零樣本方法來填充句子中的掩碼。你可以在 RobBERT 在 Huggingface 的託管推理 API 上免費測試。你還可以使用 HuggingFace 的任何 RoBERTa 運行器、他們的微調筆記本,通過將模型名稱更改為 pdelobelle/robbert-2023-dutch-large
為你自己的任務創建一個新的預測頭。
🔗 引用信息
RobBERT 模型套件由 Pieter Delobelle、Thomas Winters、Bettina Berendt 和 François Remy 創建。如果你想引用我們的論文或模型,可以使用以下 BibTeX:
@misc{delobelle2023robbert2023conversion,
author = {Delobelle, P and Remy, F},
month = {Sep},
organization = {Antwerp, Belgium},
title = {RobBERT-2023: Keeping Dutch Language Models Up-To-Date at a Lower Cost Thanks to Model Conversion},
year = {2023},
startyear = {2023},
startmonth = {Sep},
startday = {22},
finishyear = {2023},
finishmonth = {Sep},
finishday = {22},
venue = {The 33rd Meeting of Computational Linguistics in The Netherlands (CLIN 33)},
day = {22},
publicationstatus = {published},
url= {https://clin33.uantwerpen.be/abstract/robbert-2023-keeping-dutch-language-models-up-to-date-at-a-lower-cost-thanks-to-model-conversion/}
}
@inproceedings{delobelle2022robbert2022,
doi = {10.48550/ARXIV.2211.08192},
url = {https://arxiv.org/abs/2211.08192},
author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina},
keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use},
venue = {arXiv},
year = {2022},
}
@inproceedings{delobelle2020robbert,
title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
author = "Delobelle, Pieter and
Winters, Thomas and
Berendt, Bettina",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
doi = "10.18653/v1/2020.findings-emnlp.292",
pages = "3255--3265"
}



