🚀 塔希爾奇BERT基礎模型
塔希爾奇BERT基礎模型是一個僅含編碼器的Transformer文本模型,擁有1.1億個參數。它是一個基於烏茲別克語(拉丁字母),通過掩碼語言建模(MLM)目標進行預訓練的模型。該模型區分大小寫,即uzbek和Uzbek是不同的。
如需瞭解該模型的完整詳情,請閱讀我們的論文(即將發佈!)和發佈博客文章。
✨ 主要特性
該模型是塔希爾奇BERT模型家族的一部分,該家族的模型使用不同數量的參數進行訓練,並且未來會持續擴展。
📚 詳細文檔
預期用途與限制
該模型主要用於在使用整個句子(可能有掩碼)進行決策的任務上進行微調,例如序列分類、標記分類或問答。
如何使用
你可以直接使用該模型進行掩碼語言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='tahrirchi/tahrirchi-bert-base')
>>> unmasker("Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning <mask>, mutafakkiri va davlat arbobi bo‘lgan.")
[{'score': 0.4616584777832031,
'token': 10879,
'token_str': ' shoiri',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning shoiri, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.19899587333202362,
'token': 10013,
'token_str': ' olimi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning olimi, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.055418431758880615,
'token': 12224,
'token_str': ' asoschisi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning asoschisi, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.037673842161893845,
'token': 24597,
'token_str': ' faylasufi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning faylasufi, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.029616089537739754,
'token': 9543,
'token_str': ' farzandi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning farzandi, mutafakkiri va davlat arbobi bo‘lgan.'}]
>>> unmasker("Egiluvchan boʻgʻinlari va <mask>, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.")
[{'score': 0.1740381121635437,
'token': 12571,
'token_str': ' oyoqlari',
'sequence': 'Egiluvchan bo‘g‘inlari va oyoqlari, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.05455964431166649,
'token': 2073,
'token_str': ' uzun',
'sequence': 'Egiluvchan bo‘g‘inlari va uzun, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.050441522151231766,
'token': 19725,
'token_str': ' barmoqlari',
'sequence': 'Egiluvchan bo‘g‘inlari va barmoqlari, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.04490342736244202,
'token': 10424,
'token_str': ' tanasi',
'sequence': 'Egiluvchan bo‘g‘inlari va tanasi, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.03777358680963516,
'token': 27116,
'token_str': ' bukilgan',
'sequence': 'Egiluvchan bo‘g‘inlari va bukilgan, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'}]
訓練數據
塔希爾奇BERT使用標準的掩碼語言建模(MLM)目標進行預訓練:模型會得到一個隱藏了部分標記的文本序列,然後需要預測這些被掩碼的標記。塔希爾奇BERT在烏茲別克語爬取數據和烏茲別克語書籍的所有拉丁字母部分上進行訓練,這些數據包含大約4000本經過預處理的書籍、從互聯網和Telegram博客中抓取的120萬篇精選文本文檔(相當於50億個標記)。
訓練過程
預處理
文本使用字節版本的字節對編碼(BPE)進行分詞,詞彙表大小為30528,以充分利用稀有詞彙。模型的輸入採用連續的512個標記片段,這些片段可能跨越多個文檔。此外,我們添加了一些正則表達式,以避免在實際使用中經常錯誤表示的不同符號出現錯誤表示。
預訓練
該模型以512的批次大小訓練了100萬步。在整個預訓練階段,序列長度限制為512個標記。使用的優化器是Adam,學習率為5e - 4,\(\beta_{1} = 0.9\),\(\beta_{2} = 0.98\),權重衰減為1e - 5,學習率在訓練時長的6%內預熱到全學習率,然後在訓練結束時線性衰減到全學習率的0.02倍。
🔧 技術細節
引用
請使用以下格式引用該模型:
@online{Mamasaidov2023TahrirchiBERT,
author = {Mukhammadsaid Mamasaidov and Abror Shopulatov},
title = {TahrirchiBERT base},
year = {2023},
url = {https://huggingface.co/tahrirchi/tahrirchi-bert-base},
note = {Accessed: 2023-10-27}, % change this date
urldate = {2023-10-27} % change this date
}
致謝
我們感謝以下出色的組織和人員的幫助:
📄 許可證
本模型採用Apache 2.0許可證。