RoBERTa-TR-medium-bpe-16k开源模型 - 支持土耳其语文本处理无需区分大小写

Home

Roberta TR Medium Bpe 16k

Developed by ctoraman

基于土耳其语使用掩码语言建模（MLM）目标预训练的RoBERTa模型，不区分大小写，中等规模架构。

大型语言模型

Transformers

Other#土耳其语文本处理 #中等规模模型 #BPE分词

Downloads 26

Release Time : 3/8/2022

Model Overview

该模型是针对土耳其语优化的RoBERTa变体，采用中等规模架构（8层，8个头，512隐藏大小），使用BPE分词算法（16.7k词汇表）。预训练数据来自经过清洗的OSCAR土耳其语语料库，适用于土耳其语自然语言处理任务。

Model Features

土耳其语优化

专门针对土耳其语特性进行预训练和优化

中等规模架构

采用8层Transformer架构，平衡性能和效率

BPE分词

使用16.7k词汇量的Byte Pair Encoding分词算法

无大小写区分

模型不区分字母大小写，适合土耳其语特性

数据清洗

预训练数据经过额外过滤和清洗，质量较高

Model Capabilities

土耳其语文本理解

掩码语言建模

序列分类（需微调）

下游NLP任务迁移学习

Use Cases

自然语言处理

土耳其语文本分类

可用于情感分析、主题分类等任务

命名实体识别

识别土耳其语文本中的人名、地名等实体

问答系统

作为土耳其语问答系统的基础模型

🚀 RoBERTa土耳其语中型BPE 16k（不区分大小写）

本项目是一个针对土耳其语的预训练模型，采用掩码语言建模（MLM）目标进行训练，且不区分大小写。该模型使用的预训练语料来自OSCAR的土耳其语部分，并经过了进一步的筛选和清理。

🚀 快速开始

本模型可用于土耳其语相关的自然语言处理任务，如文本分类、情感分析等。以下是加载模型和进行分词的示例代码，示例中的最大长度（514）可以根据需求修改：

model = AutoModel.from_pretrained([model_path])
# 用于序列分类：
# model = AutoModelForSequenceClassification.from_pretrained([model_path], num_labels=[num_classes])

tokenizer = PreTrainedTokenizerFast(tokenizer_file=[file_path])
tokenizer.mask_token = "[MASK]"
tokenizer.cls_token = "[CLS]"
tokenizer.sep_token = "[SEP]"
tokenizer.pad_token = "[PAD]"
tokenizer.unk_token = "[UNK]"
tokenizer.bos_token = "[CLS]"
tokenizer.eos_token = "[SEP]"
tokenizer.model_max_length = 514

✨ 主要特性

语言适配：专门针对土耳其语进行预训练，能更好地处理土耳其语的语言特点和语义信息。
模型架构：模型架构类似于bert-medium，具有8层、8个注意力头和512的隐藏层大小。
分词算法：采用BPE（字节对编码）分词算法，词汇量大小为16.7k。

📦 模型信息

属性	详情
模型类型	RoBERTa土耳其语中型BPE 16k（不区分大小写）
训练数据	OSCAR的土耳其语部分，经过进一步筛选和清理

📚 详细文档

模型的详细信息和性能对比可参考这篇论文：Impact of Tokenization on Language Models: An Analysis for Turkish

📄 许可证

本模型采用CC BY-NC-SA 4.0许可证。

🔖 引用信息

如果您在研究中使用了该模型，请使用以下BibTeX引用：

@misc{https://doi.org/10.48550/arxiv.2204.08832,
  doi = {10.48550/ARXIV.2204.08832},
  url = {https://arxiv.org/abs/2204.08832},
  author = {Toraman, Cagri and Yilmaz, Eyup Halit and Şahinuç, Furkan and Ozcelik, Oguzhan},
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {Impact of Tokenization on Language Models: An Analysis for Turkish},
  publisher = {arXiv},
  year = {2022},
  copyright = {Creative Commons Attribution Non Commercial Share Alike 4.0 International}
}