🚀 UzBERT基礎模型(不區分大小寫)
UzBERT是一個針對烏茲別克語(西裡爾字母)進行預訓練的模型,採用了掩碼語言建模和下一句預測的目標任務。該模型能夠助力烏茲別克語相關的自然語言處理任務,如文本生成、語義理解等。
🚀 快速開始
你可以直接使用這個模型配合掩碼語言建模的管道進行操作:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='coppercitylabs/uzbert-base-uncased')
>>> unmasker("Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг [MASK], мутафаккири ва давлат арбоби бўлган.")
[
{
'token_str': 'шоири',
'token': 13587,
'score': 0.7974384427070618,
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг шоири, мутафаккир ##и ва давлат арбоби бўлган.'
},
{
'token_str': 'олими',
'token': 18500,
'score': 0.09166576713323593,
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг олими, мутафаккир ##и ва давлат арбоби бўлган.'
},
{
'token_str': 'асосчиси',
'token': 7469,
'score': 0.02451123297214508,
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг асосчиси, мутафаккир ##и ва давлат арбоби бўлган.'
},
{
'token_str': 'ёзувчиси',
'token': 22439,
'score': 0.017601722851395607,
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг ёзувчиси, мутафаккир ##и ва давлат арбоби бўлган.'
},
{
'token_str': 'устози',
'token': 11494,
'score': 0.010115668177604675,
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг устози, мутафаккир ##и ва давлат арбоби бўлган.'
}
]
📚 詳細文檔
訓練數據
UzBERT模型在大約62.5萬篇新聞文章(約1.42億個單詞)上進行了預訓練。
BibTeX引用和引用信息
@misc{mansurov2021uzbert,
title={{UzBERT: pretraining a BERT model for Uzbek}},
author={B. Mansurov and A. Mansurov},
year={2021},
eprint={2108.09814},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本項目採用MIT許可證。
信息表格
屬性 |
詳情 |
模型類型 |
UzBERT基礎模型(不區分大小寫) |
訓練數據 |
約62.5萬篇新聞文章(約1.42億個單詞) |
許可證 |
MIT |