Tavbert - TR Open-source Model - Implementing character-level language processing functions for Turkish

Tavbert Tr

Developed by tau

A BERT-like masked language model for Turkish, operating at the character level, pre-trained using SpanBERT-style character span masking.

Large Language Model

Transformers

Other#Turkish Character-level BERT #Span Masking Pre-training #OSCAR Dataset

Downloads 15

Release Time : 4/9/2022

Model Overview

TavBERT is a pre-trained language model specifically designed for Turkish, utilizing character-level processing to better handle the morphological characteristics of Turkish.

Model Features

Character-level Processing

Uses character-level instead of word-level processing, better suited for Turkish morphological features.

Span Masking Pre-training

Employs SpanBERT-style character span masking for pre-training, enhancing model performance.

Large-scale Training Data

Trained on the Turkish portion of OSCAR (27GB of text).

Model Capabilities

Turkish Text Understanding

Masked Language Modeling

Character-level Prediction

Use Cases

Natural Language Processing

Turkish Text Completion

Predicts masked segments of Turkish text.

Accurately predicts masked character sequences.

Turkish Language Model

Serves as a base model for downstream NLP tasks.

Property	Details
Model Type	Turkish BERT-style masked language model
Training Data	OSCAR (Ortiz, 2019) Turkish section (27 GB text, 77 million sentences)

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Tavbert Tr

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 TavBERT base model

🚀 Quick Start

✨ Features

📦 Installation

💻 Usage Examples

Basic Usage

📚 Documentation

Training data