SinBERT-large Open-source Sinhala Language Model - Pre-training Empowers Sinhala Natural Language Processing

Sinbert Large

Developed by NLPC-UOM

SinBERT is a Sinhala pre-trained language model based on the RoBERTa architecture, trained on a large Sinhala monolingual corpus (sin-cc-15M).

Large Language Model

Transformers

OtherOpen Source License:MIT #Sinhala pre-training #Text classification optimization #Monolingual corpus

Downloads 150

Release Time : 3/2/2022

Model Overview

The SinBERT model is specifically designed for Sinhala text processing and is suitable for various natural language processing tasks, such as text classification.

Model Features

Sinhala optimization

Specifically pre-trained for Sinhala, optimizing text processing capabilities for this language.

Based on RoBERTa architecture

Adopts the RoBERTa architecture, inheriting its excellent natural language processing capabilities.

Large-scale training data

Trained using the sin-cc-15M large Sinhala monolingual corpus.

Model Capabilities

Text classification

Natural language understanding

Text feature extraction

Use Cases

Text analysis

Sinhala text classification

Performing classification tasks on Sinhala text

Demonstrated good classification performance in the LREC 2022 paper

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Sinbert Large

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 SinBERT-large Model

🚀 Quick Start

📄 License

📚 Documentation