ukr-roberta-base Open-source Model - Free Deployment to Assist Ukrainian Natural Language Processing Tasks

Ukr Roberta Base

Developed by youscan

RoBERTa base model trained on large-scale Ukrainian corpus, suitable for Ukrainian natural language processing tasks

Large Language Model Other#Ukrainian pre-training #Large-scale corpus #Social media text understanding

Downloads 3,702

Release Time : 3/2/2022

Model Overview

This is a RoBERTa base model trained on Ukrainian Wikipedia, deduplicated OSCAR dataset, and social media texts, using the same architecture as roberta-base-cased and specifically optimized for Ukrainian

Model Features

Large-scale Ukrainian pre-training

Pre-trained on over 3.3 billion characters of Ukrainian corpus including Wikipedia, deduplicated OSCAR dataset, and social media texts

Standard RoBERTa architecture

Uses the same 12-layer Transformer architecture as roberta-base-cased, ensuring compatibility with other RoBERTa models

Efficient training

Trained in 85 hours using 4 V100 GPUs with high training efficiency

Model Capabilities

Text understanding

Text classification

Named entity recognition

Question answering

Text generation

Use Cases

Text analysis

Ukrainian sentiment analysis

Analyze sentiment tendencies in Ukrainian social media texts

Ukrainian news classification

Automatically classify Ukrainian news articles

Language understanding

Ukrainian question answering system

Build knowledge-based question answering systems for Ukrainian

Property	Details
Ukrainian Wikipedia - May 2020	Lines: 18 001 466, Words: 201 207 739, Characters: 2 647 891 947
Ukrainian OSCAR deduplicated dataset	Lines: 56 560 011, Words: 2 250 210 650, Characters: 29 705 050 592
Sampled mentions from social networks	Lines: 11 245 710, Words: 128 461 796, Characters: 1 632 567 763
Total	Lines: 85 807 187, Words: 2 579 880 185, Characters: 33 985 510 302

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Ukr Roberta Base

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 ukr-roberta-base

🚀 Quick Start

📚 Documentation

🔍 Pre - training corpora

🔧 Pre - training details

📄 Author