🚀 塔希尔奇BERT基础模型
塔希尔奇BERT基础模型是一个仅含编码器的Transformer文本模型,拥有1.1亿个参数。它是一个基于乌兹别克语(拉丁字母),通过掩码语言建模(MLM)目标进行预训练的模型。该模型区分大小写,即uzbek和Uzbek是不同的。
如需了解该模型的完整详情,请阅读我们的论文(即将发布!)和发布博客文章。
✨ 主要特性
该模型是塔希尔奇BERT模型家族的一部分,该家族的模型使用不同数量的参数进行训练,并且未来会持续扩展。
📚 详细文档
预期用途与限制
该模型主要用于在使用整个句子(可能有掩码)进行决策的任务上进行微调,例如序列分类、标记分类或问答。
如何使用
你可以直接使用该模型进行掩码语言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='tahrirchi/tahrirchi-bert-base')
>>> unmasker("Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning <mask>, mutafakkiri va davlat arbobi bo‘lgan.")
[{'score': 0.4616584777832031,
'token': 10879,
'token_str': ' shoiri',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning shoiri, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.19899587333202362,
'token': 10013,
'token_str': ' olimi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning olimi, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.055418431758880615,
'token': 12224,
'token_str': ' asoschisi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning asoschisi, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.037673842161893845,
'token': 24597,
'token_str': ' faylasufi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning faylasufi, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.029616089537739754,
'token': 9543,
'token_str': ' farzandi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning farzandi, mutafakkiri va davlat arbobi bo‘lgan.'}]
>>> unmasker("Egiluvchan boʻgʻinlari va <mask>, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.")
[{'score': 0.1740381121635437,
'token': 12571,
'token_str': ' oyoqlari',
'sequence': 'Egiluvchan bo‘g‘inlari va oyoqlari, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.05455964431166649,
'token': 2073,
'token_str': ' uzun',
'sequence': 'Egiluvchan bo‘g‘inlari va uzun, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.050441522151231766,
'token': 19725,
'token_str': ' barmoqlari',
'sequence': 'Egiluvchan bo‘g‘inlari va barmoqlari, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.04490342736244202,
'token': 10424,
'token_str': ' tanasi',
'sequence': 'Egiluvchan bo‘g‘inlari va tanasi, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.03777358680963516,
'token': 27116,
'token_str': ' bukilgan',
'sequence': 'Egiluvchan bo‘g‘inlari va bukilgan, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'}]
训练数据
塔希尔奇BERT使用标准的掩码语言建模(MLM)目标进行预训练:模型会得到一个隐藏了部分标记的文本序列,然后需要预测这些被掩码的标记。塔希尔奇BERT在乌兹别克语爬取数据和乌兹别克语书籍的所有拉丁字母部分上进行训练,这些数据包含大约4000本经过预处理的书籍、从互联网和Telegram博客中抓取的120万篇精选文本文档(相当于50亿个标记)。
训练过程
预处理
文本使用字节版本的字节对编码(BPE)进行分词,词汇表大小为30528,以充分利用稀有词汇。模型的输入采用连续的512个标记片段,这些片段可能跨越多个文档。此外,我们添加了一些正则表达式,以避免在实际使用中经常错误表示的不同符号出现错误表示。
预训练
该模型以512的批次大小训练了100万步。在整个预训练阶段,序列长度限制为512个标记。使用的优化器是Adam,学习率为5e - 4,\(\beta_{1} = 0.9\),\(\beta_{2} = 0.98\),权重衰减为1e - 5,学习率在训练时长的6%内预热到全学习率,然后在训练结束时线性衰减到全学习率的0.02倍。
🔧 技术细节
引用
请使用以下格式引用该模型:
@online{Mamasaidov2023TahrirchiBERT,
author = {Mukhammadsaid Mamasaidov and Abror Shopulatov},
title = {TahrirchiBERT base},
year = {2023},
url = {https://huggingface.co/tahrirchi/tahrirchi-bert-base},
note = {Accessed: 2023-10-27}, % change this date
urldate = {2023-10-27} % change this date
}
致谢
我们感谢以下出色的组织和人员的帮助:
📄 许可证
本模型采用Apache 2.0许可证。