🚀 RobBERT-2023:讓荷蘭語語言模型與時俱進
RobBERT-2023是基於荷蘭語的語言模型,它基於RoBERTa架構,使用荷蘭語分詞器和訓練數據。該模型在最新數據上進行訓練,能更好地適應荷蘭語的發展變化,在相關基準測試中表現出色,為荷蘭語的自然語言處理任務提供了強大支持。
🚀 快速開始
RobBERT-2023和RobBERT都採用了 RoBERTa 架構和預訓練方式,但使用了荷蘭語分詞器和訓練數據。RoBERTa是經過魯棒優化的英文BERT模型,比原始的BERT模型更強大。基於相同的架構,可以使用 微調RoBERTa模型的代碼 和大多數用於BERT模型的代碼(例如 HuggingFace Transformers 庫提供的代碼)輕鬆對RobBERT進行微調並進行推理。
默認情況下,RobBERT-2023具有在訓練中使用的掩碼語言模型頭。這可以作為一種零樣本方法來填充句子中的掩碼。可以在 RobBERT的Huggingface託管推理API 上免費進行測試。你還可以通過使用HuggingFace的任何 RoBERTa運行器、微調筆記本,將模型名稱更改為 pdelobelle/robbert-2023-dutch-large
,為自己的任務創建一個新的預測頭。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
你可以使用 HuggingFace基於BERT的大多數筆記本 在你的荷蘭語數據集上微調RobBERT-2022。
✨ 主要特性
- 性能提升:RobBERT-2023在 DUMB基準測試 中超越了robbert-v2-base和robbert-2022-base模型,
robbert-2023-dutch-large
更是比BERTje高出18.6分。
- 模型更新:考慮到荷蘭語自2020年以來的發展變化,如COVID-19大流行引入了大量新詞彙,以及世界事實的變化,RobBERT-2023在2022年的數據上進行訓練,以適應這些變化。
- 多種模型選擇:除了基礎模型,還發布了一個具有3.55億參數的大型模型(是robbert-2022-base的3倍)。
📦 安裝指南
文檔未提及具體安裝步驟,此部分跳過。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-base")
📚 詳細文檔
可用荷蘭語BERT模型比較
有多種基於荷蘭語的BERT模型可用於在你的任務上進行微調。以下是一個快速總結,幫助你找到適合你需求的模型:
還有 GroNLP/bert-base-dutch-cased “BERTje” 模型。該模型使用過時的基本BERT模型,並在較小的乾淨荷蘭語文本語料庫上進行訓練。由於RobBERT採用了更新的架構以及更大、更接近現實世界的訓練語料庫,大多數研究人員和從業者似乎使用RobBERT模型在他們的語言任務中取得了更高的性能。
如何復現我們論文中的實驗
復現我們論文中的實驗 在RobBERT倉庫的README中有詳細描述。預訓練取決於模型,對於RobBERT-2023,這基於 我們的Tik-to-Tok方法。
RobBERT名稱的由來
大多數類BERT模型的名稱中都有 “BERT” 這個詞(例如 RoBERTa、ALBERT、CamemBERT 以及 許多其他模型)。因此,我們使用其掩碼語言模型對原始的RobBERT模型進行查詢,讓它給自己命名為 \<mask\>bert,使用了 各種 提示 方式 進行詢問,它始終稱自己為RobBERT。
我們認為這個名字非常合適,因為RobBERT是一個 非常荷蘭化的名字(因此顯然是一個荷蘭語語言模型),並且與它的基礎架構 RoBERTa 有很高的相似性。
由於 “rob” 在荷蘭語中是表示海豹的詞,我們決定畫一隻海豹,並把它打扮成 芝麻街的Bert 的樣子,作為 RobBERT的標誌。
🔧 技術細節
文檔未提及具體技術細節,此部分跳過。
📄 許可證
本項目採用MIT許可證。
致謝與引用
RobBERT系列模型由 Pieter Delobelle、Thomas Winters、Bettina Berendt 和 François Remy 創建。
如果你想引用我們的論文或模型,可以使用以下BibTeX:
@misc{delobelle2023robbert2023conversion,
author = {Delobelle, P and Remy, F},
month = {Sep},
organization = {Antwerp, Belgium},
title = {RobBERT-2023: Keeping Dutch Language Models Up-To-Date at a Lower Cost Thanks to Model Conversion},
year = {2023},
startyear = {2023},
startmonth = {Sep},
startday = {22},
finishyear = {2023},
finishmonth = {Sep},
finishday = {22},
venue = {The 33rd Meeting of Computational Linguistics in The Netherlands (CLIN 33)},
day = {22},
publicationstatus = {published},
url= {https://clin33.uantwerpen.be/abstract/robbert-2023-keeping-dutch-language-models-up-to-date-at-a-lower-cost-thanks-to-model-conversion/}
}
@inproceedings{delobelle2022robbert2022,
doi = {10.48550/ARXIV.2211.08192},
url = {https://arxiv.org/abs/2211.08192},
author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina},
keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use},
venue = {arXiv},
year = {2022},
}
@inproceedings{delobelle2020robbert,
title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
author = "Delobelle, Pieter and
Winters, Thomas and
Berendt, Bettina",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
doi = "10.18653/v1/2020.findings-emnlp.292",
pages = "3255--3265"
}