🚀 HerBERT
HerBERT 是一个基于 BERT 的语言模型,它使用掩码语言建模(MLM)和句子结构目标(SSO),通过对整个单词进行动态掩码,在波兰语语料库上进行训练。欲了解更多详情,请参考:HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish。该模型的训练和实验是使用版本为 2.9 的 transformers 库完成的。
✨ 主要特性
- 基于 BERT 架构,在波兰语语料库上进行训练。
- 使用掩码语言建模(MLM)和句子结构目标(SSO),并对整个单词进行动态掩码。
📦 安装指南
文档未提及具体安装步骤,可参考 transformers 库的安装说明。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-large-cased")
model = AutoModel.from_pretrained("allegro/herbert-large-cased")
output = model(
**tokenizer.batch_encode_plus(
[
(
"A potem szedł środkiem drogi w kurzawie, bo zamiatał nogami, ślepy dziad prowadzony przez tłustego kundla na sznurku.",
"A potem leciał od lasu chłopak z butelką, ale ten ujrzawszy księdza przy drodze okrążył go z dala i biegł na przełaj pól do karczmy."
)
],
padding='longest',
add_special_tokens=True,
return_tensors='pt'
)
)
📚 详细文档
语料库
HerBERT 在六种不同的波兰语语料库上进行训练:
分词器
训练数据集使用字符级字节对编码(CharBPETokenizer
)将其分词为子词,词汇量大小为 50k 个词元。分词器本身是使用 tokenizers 库进行训练的。
我们强烈建议您使用分词器的 Fast
版本,即 HerbertTokenizerFast
。
📄 许可证
CC BY 4.0
🔖 引用
如果您使用此模型,请引用以下论文:
@inproceedings{mroczkowski-etal-2021-herbert,
title = "{H}er{BERT}: Efficiently Pretrained Transformer-based Language Model for {P}olish",
author = "Mroczkowski, Robert and
Rybak, Piotr and
Wr{\'o}blewska, Alina and
Gawlik, Ireneusz",
booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing",
month = apr,
year = "2021",
address = "Kiyv, Ukraine",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.bsnlp-1.1",
pages = "1--10",
}
👥 作者
该模型由 Machine Learning Research Team at Allegro 和 Linguistic Engineering Group at Institute of Computer Science, Polish Academy of Sciences 训练。
您可以通过 klejbenchmark@allegro.pl 与我们联系。