🚀 TahrirchiBERT base model
TahrirchiBERT-baseは、1億1000万のパラメータを持つエンコーダ専用のTransformerテキストモデルです。
このモデルは、マスク言語モデリング(MLM)の目的でウズベク語(ラテン文字)で事前学習されています。このモデルは大文字小文字を区別します。例えば、uzbekとUzbekは異なるものとして扱われます。
このモデルの詳細については、当社の論文(近日公開!)とリリースブログ記事をご覧ください。
✨ 主な機能
モデルのバリエーション
このモデルは、TahrirchiBERTモデルファミリーの一部で、異なる数のパラメータで学習され、将来的にも継続的に拡張されます。
想定される用途と制限
このモデルは、主に文全体(マスクされている可能性もある)を使用して判断を下すタスク、例えばシーケンス分類、トークン分類、質問応答などで微調整することを目的としています。
📦 インストール
このセクションにはインストールに関する具体的な内容がありません。
💻 使用例
基本的な使用法
このモデルは、マスク言語モデリングのパイプラインで直接使用できます。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='tahrirchi/tahrirchi-bert-base')
>>> unmasker("Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning <mask>, mutafakkiri va davlat arbobi bo‘lgan.")
[{'score': 0.4616584777832031,
'token': 10879,
'token_str': ' shoiri',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning shoiri, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.19899587333202362,
'token': 10013,
'token_str': ' olimi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning olimi, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.055418431758880615,
'token': 12224,
'token_str': ' asoschisi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning asoschisi, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.037673842161893845,
'token': 24597,
'token_str': ' faylasufi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning faylasufi, mutafakkiri va davlat arbobi bo‘lgan.'},
{'score': 0.029616089537739754,
'token': 9543,
'token_str': ' farzandi',
'sequence': 'Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning farzandi, mutafakkiri va davlat arbobi bo‘lgan.'}]
>>> unmasker("Egiluvchan boʻgʻinlari va <mask>, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.")
[{'score': 0.1740381121635437,
'token': 12571,
'token_str': ' oyoqlari',
'sequence': 'Egiluvchan bo‘g‘inlari va oyoqlari, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.05455964431166649,
'token': 2073,
'token_str': ' uzun',
'sequence': 'Egiluvchan bo‘g‘inlari va uzun, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.050441522151231766,
'token': 19725,
'token_str': ' barmoqlari',
'sequence': 'Egiluvchan bo‘g‘inlari va barmoqlari, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.04490342736244202,
'token': 10424,
'token_str': ' tanasi',
'sequence': 'Egiluvchan bo‘g‘inlari va tanasi, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'},
{'score': 0.03777358680963516,
'token': 27116,
'token_str': ' bukilgan',
'sequence': 'Egiluvchan bo‘g‘inlari va bukilgan, yarim bukilgan tirnoqlari tik qiyaliklar hamda daraxtlarga oson chiqish imkonini beradi.'}]
📚 ドキュメント
学習データ
TahrirchiBERTは、標準的なマスク言語モデリング(MLM)の目的で事前学習されています。つまり、モデルには一部のトークンが隠されたテキストシーケンスが与えられ、これらのマスクされたトークンを予測する必要があります。TahrirchiBERTは、Uzbek CrawlとUzbek Booksのすべてのラテン文字部分で学習されています。これには、約4000冊の前処理された書籍、インターネットやTelegramブログから収集された120万の精選されたテキストドキュメント(約50億のトークンに相当)が含まれています。
学習手順
前処理
テキストは、Byte-Pair Encoding(BPE)のバイトバージョンを使用してトークン化され、語彙サイズは30,528に設定されています。これにより、稀な単語も十分に活用できます。モデルの入力は、ドキュメントをまたがる可能性のある512個の連続したトークンの断片を取ります。また、実際には誤って使用されることが多いさまざまな記号の誤表現を避けるために、いくつかの正規表現を追加しました。
事前学習
モデルは、バッチサイズ512で100万ステップ学習されました。すべての事前学習段階で、シーケンス長は512トークンに制限されました。使用されたオプティマイザはAdamで、学習率は5e-4、\(\beta_{1} = 0.9\)、\(\beta_{2} = 0.98\)、重み減衰は1e-5です。学習率は、学習期間の6%までフルLRまでウォームアップし、学習期間の終わりまで線形に減衰してフルLRの0.02倍になります。
引用
このモデルを引用する場合は、次の形式を使用してください。
@online{Mamasaidov2023TahrirchiBERT,
author = {Mukhammadsaid Mamasaidov and Abror Shopulatov},
title = {TahrirchiBERT base},
year = {2023},
url = {https://huggingface.co/tahrirchi/tahrirchi-bert-base},
note = {Accessed: 2023-10-27}, % change this date
urldate = {2023-10-27} % change this date
}
謝辞
このモデルの実現に協力してくれた素晴らしい組織や人々に感謝します。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。