🚀 土耳其语RoBERTa模型
这是一个基于土耳其语维基百科、土耳其语OSCAR以及一些新闻网站数据进行预训练的土耳其语RoBERTa基础模型。该模型能够助力自然语言处理相关任务,为土耳其语的文本分析、理解等工作提供强大支持。
🚀 快速开始
本部分将介绍如何快速加载和使用该土耳其语RoBERTa模型。
✨ 主要特性
- 训练数据丰富:在包含38GB数据和3.297亿多个句子的语料库上进行训练,涵盖土耳其语维基百科、土耳其语OSCAR和一些新闻网站的数据。
- 硬件资源充足:由Turkcell公司使用Intel(R) Xeon(R) Gold 6230R CPU(主频2.10GHz)、256GB内存和2块GV100GL [Tesla V100 PCIe 32GB] GPU训练250万步得到。
📦 安装指南
要使用该模型,需先安装transformers
库,可使用以下命令进行安装:
pip install transformers
💻 使用示例
基础用法
以下代码展示了如何加载模型和分词器:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("TURKCELL/roberta-base-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("TURKCELL/roberta-base-turkish-uncased")
高级用法
以下代码展示了如何使用fill-mask
管道进行掩码填充任务:
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="TURKCELL/roberta-base-turkish-uncased",
tokenizer="TURKCELL/roberta-base-turkish-uncased"
)
fill_mask("iki ülke arasında <mask> başladı")
[{'sequence': 'iki ülke arasında savaş başladı',
'score': 0.3013845384120941,
'token': 1359,
'token_str': ' savaş'},
{'sequence': 'iki ülke arasında müzakereler başladı',
'score': 0.1058429479598999,
'token': 30439,
'token_str': ' müzakereler'},
{'sequence': 'iki ülke arasında görüşmeler başladı',
'score': 0.07718811184167862,
'token': 4916,
'token_str': ' görüşmeler'},
{'sequence': 'iki ülke arasında kriz başladı',
'score': 0.07174749672412872,
'token': 3908,
'token_str': ' kriz'},
{'sequence': 'iki ülke arasında çatışmalar başladı',
'score': 0.05678590387105942,
'token': 19346,
'token_str': ' çatışmalar'}]
📄 许可证
本项目采用MIT许可证。