herbert-large-cased開源波蘭語語言模型 - 支持文本理解與處理等應用

首頁

Herbert Large Cased

由allegro開發

HerBERT是一個基於BERT架構的波蘭語預訓練語言模型，採用動態全詞掩碼和句子結構目標進行訓練。

大型語言模型其他#波蘭語預訓練 #動態全詞掩碼 #句子結構優化

下載量 1,272

發布時間 : 3/2/2022

模型概述

HerBERT是一個高效的波蘭語預訓練語言模型，基於BERT架構，適用於各種自然語言處理任務。

模型特點

動態全詞掩碼

採用動態全詞掩碼的掩碼語言建模方法進行訓練，提高了模型的語言理解能力。

句子結構目標

結合句子結構目標（SSO）進行訓練，增強了模型對句子結構的理解。

大規模訓練語料

在六個波蘭語語料庫上進行訓練，覆蓋了廣泛的文本類型和領域。

高效分詞器

使用字符級字節對編碼（CharBPETokenizer）將文本轉換為5萬詞元的子詞單元，提高了處理效率。

模型能力

波蘭語文本理解

波蘭語文本生成

掩碼語言建模

使用案例

自然語言處理

文本分類

用於波蘭語文本的分類任務，如情感分析、主題分類等。

命名實體識別

識別波蘭語文本中的命名實體，如人名、地名、組織名等。

機器翻譯

作為波蘭語機器翻譯系統的組成部分，提高翻譯質量。

🚀 HerBERT

HerBERT 是一個基於 BERT 的語言模型，它使用掩碼語言建模（MLM）和句子結構目標（SSO），通過對整個單詞進行動態掩碼，在波蘭語語料庫上進行訓練。欲瞭解更多詳情，請參考：HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish。該模型的訓練和實驗是使用版本為 2.9 的 transformers 庫完成的。

✨ 主要特性

基於 BERT 架構，在波蘭語語料庫上進行訓練。
使用掩碼語言建模（MLM）和句子結構目標（SSO），並對整個單詞進行動態掩碼。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 transformers 庫的安裝說明。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-large-cased")
model = AutoModel.from_pretrained("allegro/herbert-large-cased")

output = model(
    **tokenizer.batch_encode_plus(
        [
            (
                "A potem szedł środkiem drogi w kurzawie, bo zamiatał nogami, ślepy dziad prowadzony przez tłustego kundla na sznurku.",
                "A potem leciał od lasu chłopak z butelką, ale ten ujrzawszy księdza przy drodze okrążył go z dala i biegł na przełaj pól do karczmy."
            )
        ],
    padding='longest',
    add_special_tokens=True,
    return_tensors='pt'
    )
)

📚 詳細文檔

語料庫

HerBERT 在六種不同的波蘭語語料庫上進行訓練：

語料庫	詞元數量	文檔數量
CCNet Middle	3243M	7.9M
CCNet Head	2641M	7.0M
National Corpus of Polish	1357M	3.9M
Open Subtitles	1056M	1.1M
Wikipedia	260M	1.4M
Wolne Lektury	41M	5.5k

分詞器

訓練數據集使用字符級字節對編碼（CharBPETokenizer）將其分詞為子詞，詞彙量大小為 50k 個詞元。分詞器本身是使用 tokenizers 庫進行訓練的。

我們強烈建議您使用分詞器的 Fast 版本，即 HerbertTokenizerFast。

📄 許可證

CC BY 4.0

🔖 引用

如果您使用此模型，請引用以下論文：

@inproceedings{mroczkowski-etal-2021-herbert,
    title = "{H}er{BERT}: Efficiently Pretrained Transformer-based Language Model for {P}olish",
    author = "Mroczkowski, Robert  and
      Rybak, Piotr  and
      Wr{\'o}blewska, Alina  and
      Gawlik, Ireneusz",
    booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Kiyv, Ukraine",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.bsnlp-1.1",
    pages = "1--10",
}