🚀 HerBERT
HerBERT 是一个基于 BERT 的语言模型,它使用掩码语言建模(MLM)和句子结构目标(SSO),通过对整个单词进行动态掩码,在波兰语语料库上进行训练。该模型的更多详细信息,请参考论文:HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish。
模型的训练和实验使用了版本为 2.9 的 transformers 库。
🚀 快速开始
模型简介
HerBERT 是基于 BERT 的语言模型,利用掩码语言建模(MLM)和句子结构目标(SSO),并对整个单词进行动态掩码,在波兰语语料库上完成训练。若需了解更多详情,请查阅:HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish。
训练信息
模型的训练和实验借助版本为 2.9 的 transformers 库开展。
✨ 主要特性
- 基于 BERT 架构,在波兰语语料库上进行训练。
- 使用掩码语言建模(MLM)和句子结构目标(SSO),并对整个单词进行动态掩码。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-base-cased")
model = AutoModel.from_pretrained("allegro/herbert-base-cased")
output = model(
**tokenizer.batch_encode_plus(
[
(
"A potem szedł środkiem drogi w kurzawie, bo zamiatał nogami, ślepy dziad prowadzony przez tłustego kundla na sznurku.",
"A potem leciał od lasu chłopak z butelką, ale ten ujrzawszy księdza przy drodze okrążył go z dala i biegł na przełaj pól do karczmy."
)
],
padding='longest',
add_special_tokens=True,
return_tensors='pt'
)
)
📚 详细文档
语料库
HerBERT 在六种不同的波兰语语料库上进行训练:
分词器
训练数据集使用字符级字节对编码(CharBPETokenizer
)将其分词为子词,词汇表大小为 5 万个词元。分词器本身使用 tokenizers 库进行训练。
我们强烈建议您使用分词器的 Fast
版本,即 HerbertTokenizerFast
。
🔧 技术细节
文档未提供足够的技术细节(少于 50 字),故跳过此章节。
📄 许可证
本模型采用 CC BY 4.0 许可证。
引用说明
如果您使用此模型,请引用以下论文:
@inproceedings{mroczkowski-etal-2021-herbert,
title = "{H}er{BERT}: Efficiently Pretrained Transformer-based Language Model for {P}olish",
author = "Mroczkowski, Robert and
Rybak, Piotr and
Wr{\\'o}blewska, Alina and
Gawlik, Ireneusz",
booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing",
month = apr,
year = "2021",
address = "Kiyv, Ukraine",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.bsnlp-1.1",
pages = "1--10",
}
作者信息
该模型由 Machine Learning Research Team at Allegro 和 Linguistic Engineering Group at Institute of Computer Science, Polish Academy of Sciences 训练。
您可以通过以下邮箱联系我们:klejbenchmark@allegro.pl