uzbert-base-uncased开源乌兹别克语预训练模型

首页

Uzbert Base Uncased

由 coppercitylabs 开发

针对乌兹别克语（西里尔字母）开发的预训练BERT模型，采用掩码语言建模和下一句预测目标进行训练。

大型语言模型

Transformers

其他开源协议:MIT #乌兹别克语BERT #西里尔字母处理 #掩码语言建模

下载量 82

发布时间 : 3/2/2022

模型简介

该模型专门为乌兹别克语设计，支持西里尔字母，适用于自然语言处理任务如文本填充和句子关系预测。

模型特点

乌兹别克语专用

专门针对乌兹别克语（西里尔字母）优化的BERT模型

无大小写区分

模型不区分大小写，适合处理各种文本格式

大规模预训练

基于约62.5万篇新闻文章（约1.42亿词）进行预训练

模型能力

文本填充

句子关系预测

乌兹别克语文本理解

使用案例

自然语言处理

文本填充

预测被掩码遮挡的词语

示例中'诗人'的预测准确率达79.7%

文本理解

理解乌兹别克语文本的语义

🚀 UzBERT基础模型（不区分大小写）

UzBERT是一个针对乌兹别克语（西里尔字母）进行预训练的模型，采用了掩码语言建模和下一句预测的目标任务。该模型能够助力乌兹别克语相关的自然语言处理任务，如文本生成、语义理解等。

🚀 快速开始

你可以直接使用这个模型配合掩码语言建模的管道进行操作：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='coppercitylabs/uzbert-base-uncased')
>>> unmasker("Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг [MASK], мутафаккири ва давлат арбоби бўлган.")

[
    {
        'token_str': 'шоири',
        'token': 13587,
        'score': 0.7974384427070618,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг шоири, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'олими',
        'token': 18500,
        'score': 0.09166576713323593,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг олими, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'асосчиси',
        'token': 7469,
        'score': 0.02451123297214508,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг асосчиси, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'ёзувчиси',
        'token': 22439,
        'score': 0.017601722851395607,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг ёзувчиси, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'устози',
        'token': 11494,
        'score': 0.010115668177604675,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг устози, мутафаккир ##и ва давлат арбоби бўлган.'
    }
]

📚 详细文档

训练数据

UzBERT模型在大约62.5万篇新闻文章（约1.42亿个单词）上进行了预训练。

BibTeX引用和引用信息

@misc{mansurov2021uzbert,
      title={{UzBERT: pretraining a BERT model for Uzbek}},
      author={B. Mansurov and A. Mansurov},
      year={2021},
      eprint={2108.09814},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}