🚀 土耳其語RoBERTa模型
這是一個基於土耳其語維基百科、土耳其語OSCAR以及一些新聞網站數據進行預訓練的土耳其語RoBERTa基礎模型。該模型能夠助力自然語言處理相關任務,為土耳其語的文本分析、理解等工作提供強大支持。
🚀 快速開始
本部分將介紹如何快速加載和使用該土耳其語RoBERTa模型。
✨ 主要特性
- 訓練數據豐富:在包含38GB數據和3.297億多個句子的語料庫上進行訓練,涵蓋土耳其語維基百科、土耳其語OSCAR和一些新聞網站的數據。
- 硬件資源充足:由Turkcell公司使用Intel(R) Xeon(R) Gold 6230R CPU(主頻2.10GHz)、256GB內存和2塊GV100GL [Tesla V100 PCIe 32GB] GPU訓練250萬步得到。
📦 安裝指南
要使用該模型,需先安裝transformers
庫,可使用以下命令進行安裝:
pip install transformers
💻 使用示例
基礎用法
以下代碼展示瞭如何加載模型和分詞器:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("TURKCELL/roberta-base-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("TURKCELL/roberta-base-turkish-uncased")
高級用法
以下代碼展示瞭如何使用fill-mask
管道進行掩碼填充任務:
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="TURKCELL/roberta-base-turkish-uncased",
tokenizer="TURKCELL/roberta-base-turkish-uncased"
)
fill_mask("iki ülke arasında <mask> başladı")
[{'sequence': 'iki ülke arasında savaş başladı',
'score': 0.3013845384120941,
'token': 1359,
'token_str': ' savaş'},
{'sequence': 'iki ülke arasında müzakereler başladı',
'score': 0.1058429479598999,
'token': 30439,
'token_str': ' müzakereler'},
{'sequence': 'iki ülke arasında görüşmeler başladı',
'score': 0.07718811184167862,
'token': 4916,
'token_str': ' görüşmeler'},
{'sequence': 'iki ülke arasında kriz başladı',
'score': 0.07174749672412872,
'token': 3908,
'token_str': ' kriz'},
{'sequence': 'iki ülke arasında çatışmalar başladı',
'score': 0.05678590387105942,
'token': 19346,
'token_str': ' çatışmalar'}]
📄 許可證
本項目採用MIT許可證。