🚀 HerBERT
HerBERT 是一個基於 BERT 的語言模型,它使用掩碼語言建模(MLM)和句子結構目標(SSO),通過對整個單詞進行動態掩碼,在波蘭語語料庫上進行訓練。該模型的更多詳細信息,請參考論文:HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish。
模型的訓練和實驗使用了版本為 2.9 的 transformers 庫。
🚀 快速開始
模型簡介
HerBERT 是基於 BERT 的語言模型,利用掩碼語言建模(MLM)和句子結構目標(SSO),並對整個單詞進行動態掩碼,在波蘭語語料庫上完成訓練。若需瞭解更多詳情,請查閱:HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish。
訓練信息
模型的訓練和實驗藉助版本為 2.9 的 transformers 庫開展。
✨ 主要特性
- 基於 BERT 架構,在波蘭語語料庫上進行訓練。
- 使用掩碼語言建模(MLM)和句子結構目標(SSO),並對整個單詞進行動態掩碼。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-base-cased")
model = AutoModel.from_pretrained("allegro/herbert-base-cased")
output = model(
**tokenizer.batch_encode_plus(
[
(
"A potem szedł środkiem drogi w kurzawie, bo zamiatał nogami, ślepy dziad prowadzony przez tłustego kundla na sznurku.",
"A potem leciał od lasu chłopak z butelką, ale ten ujrzawszy księdza przy drodze okrążył go z dala i biegł na przełaj pól do karczmy."
)
],
padding='longest',
add_special_tokens=True,
return_tensors='pt'
)
)
📚 詳細文檔
語料庫
HerBERT 在六種不同的波蘭語語料庫上進行訓練:
分詞器
訓練數據集使用字符級字節對編碼(CharBPETokenizer
)將其分詞為子詞,詞彙表大小為 5 萬個詞元。分詞器本身使用 tokenizers 庫進行訓練。
我們強烈建議您使用分詞器的 Fast
版本,即 HerbertTokenizerFast
。
🔧 技術細節
文檔未提供足夠的技術細節(少於 50 字),故跳過此章節。
📄 許可證
本模型採用 CC BY 4.0 許可證。
引用說明
如果您使用此模型,請引用以下論文:
@inproceedings{mroczkowski-etal-2021-herbert,
title = "{H}er{BERT}: Efficiently Pretrained Transformer-based Language Model for {P}olish",
author = "Mroczkowski, Robert and
Rybak, Piotr and
Wr{\\'o}blewska, Alina and
Gawlik, Ireneusz",
booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing",
month = apr,
year = "2021",
address = "Kiyv, Ukraine",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.bsnlp-1.1",
pages = "1--10",
}
作者信息
該模型由 Machine Learning Research Team at Allegro 和 Linguistic Engineering Group at Institute of Computer Science, Polish Academy of Sciences 訓練。
您可以通過以下郵箱聯繫我們:klejbenchmark@allegro.pl