🚀 RoBERTa土耳其語模型
RoBERTaTurk是一個基於土耳其語的預訓練模型,它在土耳其語維基百科、土耳其語OSCAR語料庫以及一些新聞網站的數據上進行了預訓練,能夠為土耳其語自然語言處理任務提供強大支持。
🚀 快速開始
加載模型
你可以使用以下代碼加載transformers庫和本模型:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("burakaytan/roberta-base-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("burakaytan/roberta-base-turkish-uncased")
掩碼填充任務示例
以下是使用該模型進行掩碼填充任務的示例代碼:
from transformers import pipeline
fill_mask = pipeline(
"fill-mask",
model="burakaytan/roberta-base-turkish-uncased",
tokenizer="burakaytan/roberta-base-turkish-uncased"
)
fill_mask("iki ülke arasında <mask> başladı")
[{'sequence': 'iki ülke arasında savaş başladı',
'score': 0.3013845384120941,
'token': 1359,
'token_str': ' savaş'},
{'sequence': 'iki ülke arasında müzakereler başladı',
'score': 0.1058429479598999,
'token': 30439,
'token_str': ' müzakereler'},
{'sequence': 'iki ülke arasında görüşmeler başladı',
'score': 0.07718811184167862,
'token': 4916,
'token_str': ' görüşmeler'},
{'sequence': 'iki ülke arasında kriz başladı',
'score': 0.07174749672412872,
'token': 3908,
'token_str': ' kriz'},
{'sequence': 'iki ülke arasında çatışmalar başladı',
'score': 0.05678590387105942,
'token': 19346,
'token_str': ' çatışmalar'}]
📚 詳細文檔
模型描述
這是一個土耳其語的RoBERTa基礎模型,在土耳其語維基百科、土耳其語OSCAR語料庫和一些新聞網站上進行了預訓練。最終的訓練語料庫大小為38GB,包含329,720,508個句子。
感謝Turkcell公司,我們得以在配備Intel(R) Xeon(R) Gold 6230R CPU @ 2.10GHz、256GB內存、2 x GV100GL [Tesla V100 PCIe 32GB] GPU的環境中對該模型進行了250萬步的訓練。
📄 許可證
本項目採用MIT許可證。
📚 引用信息
若要引用此模型,請使用以下BibTeX格式:
@inproceedings{aytan2022comparison,
title={Comparison of Transformer-Based Models Trained in Turkish and Different Languages on Turkish Natural Language Processing Problems},
author={Aytan, Burak and Sakar, C Okan},
booktitle={2022 30th Signal Processing and Communications Applications Conference (SIU)},
pages={1--4},
year={2022},
organization={IEEE}
}