Tahrirchi-bert-base開源文本模型 - 烏茲別克語（拉丁字母）內容編碼處理好幫手

首頁

Tahrirchi Bert Base

由tahrirchi開發

TahrirchiBERT-base是一個烏茲別克語（拉丁字母）的僅編碼器Transformer文本模型，擁有1.1億參數，通過掩碼語言建模目標預訓練。

大型語言模型

Transformers

其他開源協議:Apache-2.0 #烏茲別克語文本處理 #掩碼語言建模 #拉丁字母BERT

下載量 88

發布時間 : 10/26/2023

模型概述

該模型基於烏茲別克語進行預訓練，適用於需要對整個句子進行決策的任務微調，如序列分類、標記分類或問答。

模型特點

烏茲別克語專用

專門針對烏茲別克語（拉丁字母）進行優化和訓練，能夠更好地理解和生成烏茲別克語文本。

區分大小寫

模型區分大小寫，能夠識別和處理不同大小寫的文本輸入。

大規模預訓練數據

使用約4000本預處理書籍和120萬篇精選網絡及Telegram博客文本（相當於50億標記）進行預訓練。

模型能力

填充掩碼

序列分類

標記分類

問答

使用案例

文本處理

烏茲別克語文本補全

用於補全烏茲別克語文本中的缺失部分，如句子中的掩碼標記。

烏茲別克語文本分類

用於對烏茲別克語文本進行分類任務，如情感分析或主題分類。

🚀 塔希爾奇BERT基礎模型

塔希爾奇BERT基礎模型是一個僅含編碼器的Transformer文本模型，擁有1.1億個參數。它是一個基於烏茲別克語（拉丁字母），通過掩碼語言建模（MLM）目標進行預訓練的模型。該模型區分大小寫，即uzbek和Uzbek是不同的。

如需瞭解該模型的完整詳情，請閱讀我們的論文（即將發佈！）和發佈博客文章。

✨ 主要特性

該模型是塔希爾奇BERT模型家族的一部分，該家族的模型使用不同數量的參數進行訓練，並且未來會持續擴展。

模型	參數數量	語言	字母
`tahrirchi-bert-small`	6700萬	烏茲別克語	拉丁字母
`tahrirchi-bert-base`	1.1億	烏茲別克語	拉丁字母

📚 詳細文檔

預期用途與限制

該模型主要用於在使用整個句子（可能有掩碼）進行決策的任務上進行微調，例如序列分類、標記分類或問答。

如何使用

你可以直接使用該模型進行掩碼語言建模：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='tahrirchi/tahrirchi-bert-base')
>>> unmasker("Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning <mask>, mutafakkiri va davlat arbobi bo‘lgan.")

[{'score': 0.4616584777832031,
  'token': 10879,
  'token_str': ' shoiri',
  'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning shoiri, mutafakkiri va davlat arbobi bo‘lgan.'},
 {'score': 0.19899587333202362,
  'token': 10013,
  'token_str': ' olimi',
  'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning olimi, mutafakkiri va davlat arbobi bo‘lgan.'},
 {'score': 0.055418431758880615,
  'token': 12224,
  'token_str': ' asoschisi',
  'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning asoschisi, mutafakkiri va davlat arbobi bo‘lgan.'},
 {'score': 0.037673842161893845,
  'token': 24597,
  'token_str': ' faylasufi',
  'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning faylasufi, mutafakkiri va davlat arbobi bo‘lgan.'},
 {'score': 0.029616089537739754,
  'token': 9543,
  'token_str': ' farzandi',
  'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning farzandi, mutafakkiri va davlat arbobi bo‘lgan.'}]


>>> unmasker("Egiluvchan boʻgʻinlari va <mask>, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.")

[{'score': 0.1740381121635437,
  'token': 12571,
  'token_str': ' oyoqlari',
  'sequence': 'Egiluvchan bo‘g‘inlari va oyoqlari, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
 {'score': 0.05455964431166649,
  'token': 2073,
  'token_str': ' uzun',
  'sequence': 'Egiluvchan bo‘g‘inlari va uzun, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
 {'score': 0.050441522151231766,
  'token': 19725,
  'token_str': ' barmoqlari',
  'sequence': 'Egiluvchan bo‘g‘inlari va barmoqlari, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
 {'score': 0.04490342736244202,
  'token': 10424,
  'token_str': ' tanasi',
  'sequence': 'Egiluvchan bo‘g‘inlari va tanasi, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
 {'score': 0.03777358680963516,
  'token': 27116,
  'token_str': ' bukilgan',
  'sequence': 'Egiluvchan bo‘g‘inlari va bukilgan, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'}]

訓練數據

塔希爾奇BERT使用標準的掩碼語言建模（MLM）目標進行預訓練：模型會得到一個隱藏了部分標記的文本序列，然後需要預測這些被掩碼的標記。塔希爾奇BERT在烏茲別克語爬取數據和烏茲別克語書籍的所有拉丁字母部分上進行訓練，這些數據包含大約4000本經過預處理的書籍、從互聯網和Telegram博客中抓取的120萬篇精選文本文檔（相當於50億個標記）。

訓練過程

預處理

文本使用字節版本的字節對編碼（BPE）進行分詞，詞彙表大小為30528，以充分利用稀有詞彙。模型的輸入採用連續的512個標記片段，這些片段可能跨越多個文檔。此外，我們添加了一些正則表達式，以避免在實際使用中經常錯誤表示的不同符號出現錯誤表示。

預訓練

該模型以512的批次大小訓練了100萬步。在整個預訓練階段，序列長度限制為512個標記。使用的優化器是Adam，學習率為5e - 4，\(\beta_{1} = 0.9\)，\(\beta_{2} = 0.98\)，權重衰減為1e - 5，學習率在訓練時長的6%內預熱到全學習率，然後在訓練結束時線性衰減到全學習率的0.02倍。

🔧 技術細節

引用

請使用以下格式引用該模型：

@online{Mamasaidov2023TahrirchiBERT,
    author    = {Mukhammadsaid Mamasaidov and Abror Shopulatov},
    title     = {TahrirchiBERT base},
    year      = {2023},
    url       = {https://huggingface.co/tahrirchi/tahrirchi-bert-base},
    note      = {Accessed: 2023-10-27}, % change this date
    urldate   = {2023-10-27} % change this date
}