uztext-3Gb-BPE-Roberta Open-Source Model - Supports Uzbek Pre-training and Sentence Prediction

Home

Uztext 3Gb BPE Roberta

Developed by rifkat

Pretrained Uzbek (Cyrillic & Latin alphabets) masked language modeling and sentence prediction model

Large Language Model

Transformers

OtherOpen Source License:Apache-2.0 #Uzbek Masked Prediction #Bilingual Alphabet Support #News Text Optimization

Downloads 25

Release Time : 3/2/2022

Model Overview

A RoBERTa-based pretrained model for Uzbek language, supporting both Cyrillic and Latin alphabet text processing, primarily used for masked language modeling and sentence prediction tasks.

Model Features

Dual Alphabet Support

Supports both Cyrillic and Latin alphabet text processing for Uzbek language

Large-scale Pretraining

Pretrained on approximately 3GB of Uzbek news data

Masked Prediction Capability

Accurately predicts masked content in texts

Model Capabilities

Uzbek text understanding

Masked language modeling

Sentence prediction

Cyrillic alphabet processing

Latin alphabet processing

Use Cases

Text Completion

Historical Figure Description Completion

Complete descriptive texts about historical figures

Accurately predicts 'poet' in 'Alisher Navoi was a great Uzbek and other Turkic peoples' [mask], thinker, and statesman'

News Event Description

Natural Disaster Report Completion

Complete key information in natural disaster reports

Accurately predicts 'regions' in 'Due to heavy rainfall, severe mudflows were observed in multiple [mask]'

🚀 UzRoBerta Model

The UzRoBerta model is pre - prepared in Uzbek (both Cyrillic and Latin scripts). It is designed for masked language modeling and next - sentence prediction, offering a powerful tool for natural language processing tasks in the Uzbek language.

🚀 Quick Start

You can use this model directly with a pipeline for masked language modeling:

from transformers import pipeline

unmasker = pipeline('fill - mask', model='rifkat/uztext-3Gb-BPE-Roberta')

unmasker("Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг [mask], мутафаккири ва давлат арбоби бўлган.")

[{'score': 0.5902208685874939,
  'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг шоири, мутафаккири ва давлат арбоби бўлган.',
  'token': 28809,
  'token_str': ' шоири'},
 {'score': 0.08303504437208176,
  'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг устози, мутафаккири ва давлат арбоби бўлган.',
  'token': 17484,
  'token_str': ' устози'},
 {'score': 0.035882771015167236,
  'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг арбоби, мутафаккири ва давлат арбоби бўлган.',
  'token': 34552,
  'token_str': ' арбоби'},
 {'score': 0.03447483479976654,
  'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг асосчиси, мутафаккири ва давлат арбоби бўлган.',
  'token': 14034,
  'token_str': ' асосчиси'},
 {'score': 0.03044942207634449,
  'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг дўсти, мутафаккири ва давлат арбоби бўлган.',
  'token': 28100,
  'token_str': ' дўсти'}]


unmasker("Kuchli yomg‘irlar tufayli bir qator [mask] kuchli sel oqishi kuzatildi.")

[{'score': 0.410250186920166,
  'sequence': 'Kuchli yomg‘irlar tufayli bir qator hududlarda kuchli sel oqishi kuzatildi.',
  'token': 11009,
  'token_str': ' hududlarda'},
 {'score': 0.2023029774427414,
  'sequence': 'Kuchli yomg‘irlar tufayli bir qator tumanlarda kuchli sel oqishi kuzatildi.',
  'token': 35370,
  'token_str': ' tumanlarda'},
 {'score': 0.129830002784729,
  'sequence': 'Kuchli yomg‘irlar tufayli bir qator viloyatlarda kuchli sel oqishi kuzatildi.',
  'token': 33584,
  'token_str': ' viloyatlarda'},
 {'score': 0.04539087787270546,
  'sequence': 'Kuchli yomg‘irlar tufayli bir qator mamlakatlarda kuchli sel oqishi kuzatildi.',
  'token': 19315,
  'token_str': ' mamlakatlarda'},
 {'score': 0.0369882769882679,
  'sequence': 'Kuchli yomg‘irlar tufayli bir qator joylarda kuchli sel oqishi kuzatildi.',
  'token': 5853,
  'token_str': ' joylarda'}]

📦 Installation

No specific installation steps are provided in the original document.

📚 Documentation

Model Information

Property	Details
Model Type	UzRoBerta
Training Data	The UzBERT model was pretrained on ≈2M news articles (≈3Gb).

📄 License

The license for this model is apache - 2.0.

📖 Citation

@misc {rifkat_davronov_2022,
	author       = { {Adilova Fatima,Rifkat Davronov, Samariddin Kushmuratov, Ruzmat Safarov} },
	title        = { uztext-3Gb-BPE-Roberta (Revision 0c87494) },
	year         = 2022,
	url          = { https://huggingface.co/rifkat/uztext-3Gb-BPE-Roberta },
	doi          = { 10.57967/hf/0140 },
	publisher    = { Hugging Face }
}

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご