herbert-large-cased开源波兰语语言模型 - 支持文本理解与处理等应用

首页

Herbert Large Cased

由 allegro 开发

HerBERT是一个基于BERT架构的波兰语预训练语言模型，采用动态全词掩码和句子结构目标进行训练。

大型语言模型其他#波兰语预训练 #动态全词掩码 #句子结构优化

下载量 1,272

发布时间 : 3/2/2022

模型简介

HerBERT是一个高效的波兰语预训练语言模型，基于BERT架构，适用于各种自然语言处理任务。

模型特点

动态全词掩码

采用动态全词掩码的掩码语言建模方法进行训练，提高了模型的语言理解能力。

句子结构目标

结合句子结构目标（SSO）进行训练，增强了模型对句子结构的理解。

大规模训练语料

在六个波兰语语料库上进行训练，覆盖了广泛的文本类型和领域。

高效分词器

使用字符级字节对编码（CharBPETokenizer）将文本转换为5万词元的子词单元，提高了处理效率。

模型能力

波兰语文本理解

波兰语文本生成

掩码语言建模

使用案例

自然语言处理

文本分类

用于波兰语文本的分类任务，如情感分析、主题分类等。

命名实体识别

识别波兰语文本中的命名实体，如人名、地名、组织名等。

机器翻译

作为波兰语机器翻译系统的组成部分，提高翻译质量。

🚀 HerBERT

HerBERT 是一个基于 BERT 的语言模型，它使用掩码语言建模（MLM）和句子结构目标（SSO），通过对整个单词进行动态掩码，在波兰语语料库上进行训练。欲了解更多详情，请参考：HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish。该模型的训练和实验是使用版本为 2.9 的 transformers 库完成的。

✨ 主要特性

基于 BERT 架构，在波兰语语料库上进行训练。
使用掩码语言建模（MLM）和句子结构目标（SSO），并对整个单词进行动态掩码。

📦 安装指南

文档未提及具体安装步骤，可参考 transformers 库的安装说明。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-large-cased")
model = AutoModel.from_pretrained("allegro/herbert-large-cased")

output = model(
    **tokenizer.batch_encode_plus(
        [
            (
                "A potem szedł środkiem drogi w kurzawie, bo zamiatał nogami, ślepy dziad prowadzony przez tłustego kundla na sznurku.",
                "A potem leciał od lasu chłopak z butelką, ale ten ujrzawszy księdza przy drodze okrążył go z dala i biegł na przełaj pól do karczmy."
            )
        ],
    padding='longest',
    add_special_tokens=True,
    return_tensors='pt'
    )
)

📚 详细文档

语料库

HerBERT 在六种不同的波兰语语料库上进行训练：

语料库	词元数量	文档数量
CCNet Middle	3243M	7.9M
CCNet Head	2641M	7.0M
National Corpus of Polish	1357M	3.9M
Open Subtitles	1056M	1.1M
Wikipedia	260M	1.4M
Wolne Lektury	41M	5.5k

分词器

训练数据集使用字符级字节对编码（CharBPETokenizer）将其分词为子词，词汇量大小为 50k 个词元。分词器本身是使用 tokenizers 库进行训练的。

我们强烈建议您使用分词器的 Fast 版本，即 HerbertTokenizerFast。

📄 许可证

CC BY 4.0

🔖 引用

如果您使用此模型，请引用以下论文：

@inproceedings{mroczkowski-etal-2021-herbert,
    title = "{H}er{BERT}: Efficiently Pretrained Transformer-based Language Model for {P}olish",
    author = "Mroczkowski, Robert  and
      Rybak, Piotr  and
      Wr{\'o}blewska, Alina  and
      Gawlik, Ireneusz",
    booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Kiyv, Ukraine",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.bsnlp-1.1",
    pages = "1--10",
}