🚀 HerBERT
HerBERT 是一個基於 BERT 的語言模型,它使用掩碼語言建模(MLM)和句子結構目標(SSO),通過對整個單詞進行動態掩碼,在波蘭語語料庫上進行訓練。欲瞭解更多詳情,請參考:HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish。該模型的訓練和實驗是使用版本為 2.9 的 transformers 庫完成的。
✨ 主要特性
- 基於 BERT 架構,在波蘭語語料庫上進行訓練。
- 使用掩碼語言建模(MLM)和句子結構目標(SSO),並對整個單詞進行動態掩碼。
📦 安裝指南
文檔未提及具體安裝步驟,可參考 transformers 庫的安裝說明。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-large-cased")
model = AutoModel.from_pretrained("allegro/herbert-large-cased")
output = model(
**tokenizer.batch_encode_plus(
[
(
"A potem szedł środkiem drogi w kurzawie, bo zamiatał nogami, ślepy dziad prowadzony przez tłustego kundla na sznurku.",
"A potem leciał od lasu chłopak z butelką, ale ten ujrzawszy księdza przy drodze okrążył go z dala i biegł na przełaj pól do karczmy."
)
],
padding='longest',
add_special_tokens=True,
return_tensors='pt'
)
)
📚 詳細文檔
語料庫
HerBERT 在六種不同的波蘭語語料庫上進行訓練:
分詞器
訓練數據集使用字符級字節對編碼(CharBPETokenizer
)將其分詞為子詞,詞彙量大小為 50k 個詞元。分詞器本身是使用 tokenizers 庫進行訓練的。
我們強烈建議您使用分詞器的 Fast
版本,即 HerbertTokenizerFast
。
📄 許可證
CC BY 4.0
🔖 引用
如果您使用此模型,請引用以下論文:
@inproceedings{mroczkowski-etal-2021-herbert,
title = "{H}er{BERT}: Efficiently Pretrained Transformer-based Language Model for {P}olish",
author = "Mroczkowski, Robert and
Rybak, Piotr and
Wr{\'o}blewska, Alina and
Gawlik, Ireneusz",
booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing",
month = apr,
year = "2021",
address = "Kiyv, Ukraine",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.bsnlp-1.1",
pages = "1--10",
}
👥 作者
該模型由 Machine Learning Research Team at Allegro 和 Linguistic Engineering Group at Institute of Computer Science, Polish Academy of Sciences 訓練。
您可以通過 klejbenchmark@allegro.pl 與我們聯繫。