uzbert-base-uncasedオープンソースウズベク语事前训练モデル - ウズベク语処理アプリケーションを支援する

ホーム

Uzbert Base Uncased

coppercitylabsによって開発

ウズベク語（キリル文字）に対して開発された事前学習済みBERTモデルで、マスク言語モデリングと次の文予測の目標を用いて学習されています。

大規模言語モデル

Transformers

その他オープンソースライセンス:MIT #ウズベク語BERT #キリル文字処理 #マスク言語モデリング

ダウンロード数 82

リリース時間 : 3/2/2022

モデル概要

このモデルはウズベク語専用に設計されており、キリル文字をサポートし、テキスト埋め込みや文関係予測などの自然言語処理タスクに適しています。

モデル特徴

ウズベク語専用

ウズベク語（キリル文字）に特化して最適化されたBERTモデル

大文字小文字区別なし

モデルは大文字小文字を区別せず、様々なテキスト形式の処理に適しています

大規模事前学習

約62.5万本のニュース記事（約1.42億語）を基に事前学習されています

モデル能力

テキスト埋め込み

文関係予測

ウズベク語テキスト理解

使用事例

自然言語処理

テキスト埋め込み

マスクされた単語を予測する

例では「詩人」の予測精度が79.7%に達しました

テキスト理解

ウズベク語テキストの意味を理解する

🚀 UzBERTベースモデル (uncased)

ウズベク語（キリル文字）で、マスク言語モデリングと次文予測を目的として事前学習されたモデルです。

🚀 クイックスタート

このモデルは、マスク言語モデリングのパイプラインで直接使用することができます。

基本的な使用法

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='coppercitylabs/uzbert-base-uncased')
>>> unmasker("Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг [MASK], мутафаккири ва давлат арбоби бўлган.")

[
    {
        'token_str': 'шоири',
        'token': 13587,
        'score': 0.7974384427070618,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг шоири, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'олими',
        'token': 18500,
        'score': 0.09166576713323593,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг олими, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'асосчиси',
        'token': 7469,
        'score': 0.02451123297214508,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг асосчиси, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'ёзувчиси',
        'token': 22439,
        'score': 0.017601722851395607,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг ёзувчиси, мутафаккир ##и ва давлат арбоби бўлган.'
    },
    {
        'token_str': 'устози',
        'token': 11494,
        'score': 0.010115668177604675,
        'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг устози, мутафаккир ##и ва давлат арбоби бўлган.'
    }
]

📚 ドキュメント

トレーニングデータ

UzBERTモデルは、約625,000件のニュース記事（約1億4200万語）で事前学習されています。

引用情報

@misc{mansurov2021uzbert,
      title={{UzBERT: pretraining a BERT model for Uzbek}},
      author={B. Mansurov and A. Mansurov},
      year={2021},
      eprint={2108.09814},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}