roberta-base-turkish-uncased開源模型 - 助力土耳其語自然語言處理免費可用

首頁

Roberta Base Turkish Uncased

由burakaytan開發

基於土耳其語預訓練的RoBERTa基礎模型，使用38GB土耳其語語料訓練

大型語言模型

Transformers

其他開源協議:MIT #土耳其語預訓練 #完形填空預測 #大規模語料訓練

下載量 57

發布時間 : 4/20/2022

模型概述

這是一個基於土耳其語的RoBERTa基礎模型，主要用於土耳其語文本的掩碼語言建模任務，支持土耳其語文本理解和生成。

模型特點

大規模土耳其語預訓練

使用38GB土耳其語語料（包含維基百科、OSCAR語料庫和新聞網站數據）進行訓練

高性能硬件訓練

在配備Intel Xeon Gold處理器和Tesla V100顯卡的高性能硬件環境下完成訓練

優化的土耳其語處理

專門針對土耳其語特點進行優化，能更好地處理土耳其語文本

模型能力

土耳其語文本理解

掩碼語言建模

文本補全

語義分析

使用案例

文本補全

完形填空應用

預測句子中被掩碼的詞語

能準確預測土耳其語句子中被掩碼的關鍵詞語

語義分析

文本相似度計算

計算土耳其語文本之間的語義相似度

🚀 RoBERTa土耳其語模型

RoBERTaTurk是一個基於土耳其語的預訓練模型，它在土耳其語維基百科、土耳其語OSCAR語料庫以及一些新聞網站的數據上進行了預訓練，能夠為土耳其語自然語言處理任務提供強大支持。

🚀 快速開始

加載模型

你可以使用以下代碼加載transformers庫和本模型：

from transformers import AutoTokenizer, AutoModelForMaskedLM
  
tokenizer = AutoTokenizer.from_pretrained("burakaytan/roberta-base-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("burakaytan/roberta-base-turkish-uncased")

掩碼填充任務示例

以下是使用該模型進行掩碼填充任務的示例代碼：

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="burakaytan/roberta-base-turkish-uncased",
    tokenizer="burakaytan/roberta-base-turkish-uncased"
)

fill_mask("iki ülke arasında <mask> başladı")

[{'sequence': 'iki ülke arasında savaş başladı',
  'score': 0.3013845384120941,
  'token': 1359,
  'token_str': ' savaş'},
 {'sequence': 'iki ülke arasında müzakereler başladı',
  'score': 0.1058429479598999,
  'token': 30439,
  'token_str': ' müzakereler'},
 {'sequence': 'iki ülke arasında görüşmeler başladı',
  'score': 0.07718811184167862,
  'token': 4916,
  'token_str': ' görüşmeler'},
 {'sequence': 'iki ülke arasında kriz başladı',
  'score': 0.07174749672412872,
  'token': 3908,
  'token_str': ' kriz'},
 {'sequence': 'iki ülke arasında çatışmalar başladı',
  'score': 0.05678590387105942,
  'token': 19346,
  'token_str': ' çatışmalar'}]

📚 詳細文檔

模型描述

這是一個土耳其語的RoBERTa基礎模型，在土耳其語維基百科、土耳其語OSCAR語料庫和一些新聞網站上進行了預訓練。最終的訓練語料庫大小為38GB，包含329,720,508個句子。

感謝Turkcell公司，我們得以在配備Intel(R) Xeon(R) Gold 6230R CPU @ 2.10GHz、256GB內存、2 x GV100GL [Tesla V100 PCIe 32GB] GPU的環境中對該模型進行了250萬步的訓練。

📄 許可證

本項目採用MIT許可證。

📚 引用信息

若要引用此模型，請使用以下BibTeX格式：

@inproceedings{aytan2022comparison,
  title={Comparison of Transformer-Based Models Trained in Turkish and Different Languages on Turkish Natural Language Processing Problems},
  author={Aytan, Burak and Sakar, C Okan},
  booktitle={2022 30th Signal Processing and Communications Applications Conference (SIU)},
  pages={1--4},
  year={2022},
  organization={IEEE}
}