R

Roberta TR Medium Bpe 16k

Developed by ctoraman
基于土耳其语使用掩码语言建模(MLM)目标预训练的RoBERTa模型,不区分大小写,中等规模架构。
Downloads 26
Release Time : 3/8/2022

Model Overview

该模型是针对土耳其语优化的RoBERTa变体,采用中等规模架构(8层,8个头,512隐藏大小),使用BPE分词算法(16.7k词汇表)。预训练数据来自经过清洗的OSCAR土耳其语语料库,适用于土耳其语自然语言处理任务。

Model Features

土耳其语优化
专门针对土耳其语特性进行预训练和优化
中等规模架构
采用8层Transformer架构,平衡性能和效率
BPE分词
使用16.7k词汇量的Byte Pair Encoding分词算法
无大小写区分
模型不区分字母大小写,适合土耳其语特性
数据清洗
预训练数据经过额外过滤和清洗,质量较高

Model Capabilities

土耳其语文本理解
掩码语言建模
序列分类(需微调)
下游NLP任务迁移学习

Use Cases

自然语言处理
土耳其语文本分类
可用于情感分析、主题分类等任务
命名实体识别
识别土耳其语文本中的人名、地名等实体
问答系统
作为土耳其语问答系统的基础模型
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase