uzbert-base-uncased開源烏茲別克語預訓練模型

首頁

Uzbert Base Uncased

由coppercitylabs開發

針對烏茲別克語（西裡爾字母）開發的預訓練BERT模型，採用掩碼語言建模和下一句預測目標進行訓練。

大型語言模型

Transformers

其他開源協議:MIT #烏茲別克語BERT #西裡爾字母處理 #掩碼語言建模

下載量 82

發布時間 : 3/2/2022

模型概述

該模型專門為烏茲別克語設計，支持西裡爾字母，適用於自然語言處理任務如文本填充和句子關係預測。

模型特點

烏茲別克語專用

專門針對烏茲別克語（西裡爾字母）優化的BERT模型

無大小寫區分

模型不區分大小寫，適合處理各種文本格式

大規模預訓練

基於約62.5萬篇新聞文章（約1.42億詞）進行預訓練

模型能力

文本填充

句子關係預測

烏茲別克語文本理解

使用案例

自然語言處理

文本填充

預測被掩碼遮擋的詞語

示例中'詩人'的預測準確率達79.7%

文本理解

理解烏茲別克語文本的語義

🚀 UzBERT基礎模型（不區分大小寫）

UzBERT是一個針對烏茲別克語（西裡爾字母）進行預訓練的模型，採用了掩碼語言建模和下一句預測的目標任務。該模型能夠助力烏茲別克語相關的自然語言處理任務，如文本生成、語義理解等。

🚀 快速開始

你可以直接使用這個模型配合掩碼語言建模的管道進行操作：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='coppercitylabs/uzbert-base-uncased')
>>> unmasker("Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг [MASK], мутафаккири ва давлат арбоби бўлган.")

[
    {
        'token_str': 'шоири',
        'token': 13587,
        'score': 0.7974384427070618,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг шоири, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'олими',
        'token': 18500,
        'score': 0.09166576713323593,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг олими, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'асосчиси',
        'token': 7469,
        'score': 0.02451123297214508,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг асосчиси, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'ёзувчиси',
        'token': 22439,
        'score': 0.017601722851395607,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг ёзувчиси, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'устози',
        'token': 11494,
        'score': 0.010115668177604675,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг устози, мутафаккир ##и ва давлат арбоби бўлган.'
    }
]

📚 詳細文檔

訓練數據

UzBERT模型在大約62.5萬篇新聞文章（約1.42億個單詞）上進行了預訓練。

BibTeX引用和引用信息

@misc{mansurov2021uzbert,
      title={{UzBERT: pretraining a BERT model for Uzbek}},
      author={B. Mansurov and A. Mansurov},
      year={2021},
      eprint={2108.09814},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}