roberta-base-turkish-uncased開源模型 - 助力土耳其語文本處理與分析

首頁

Roberta Base Turkish Uncased

由TURKCELL開發

這是一個基於土耳其語的RoBERTa基礎模型，預訓練數據來源於土耳其語維基百科、土耳其語OSCAR語料庫以及部分新聞網站。

大型語言模型

Transformers

開源協議:MIT #土耳其語預訓練 #文本填空預測 #大規模語料訓練

下載量 109

發布時間 : 12/7/2023

模型概述

該模型是一個土耳其語的無大小寫RoBERTa模型，主要用於土耳其語的文本理解和生成任務。

模型特點

大規模預訓練數據

使用38GB土耳其語文本數據訓練，包含329,720,508個句子。

高性能硬件訓練

使用Intel Xeon Gold處理器和Tesla V100顯卡進行訓練。

土耳其語優化

專門針對土耳其語特性進行優化，包含土耳其語維基百科和新聞數據。

模型能力

土耳其語文本理解

掩碼語言建模

文本填空任務

使用案例

自然語言處理

文本填空

預測句子中被掩碼的詞語

如示例所示，能準確預測'iki ülke arasında <mask> başladı'中的空白詞語

文本生成

基於上下文生成連貫的土耳其語文本

🚀 土耳其語RoBERTa模型

這是一個基於土耳其語維基百科、土耳其語OSCAR以及一些新聞網站數據進行預訓練的土耳其語RoBERTa基礎模型。該模型能夠助力自然語言處理相關任務，為土耳其語的文本分析、理解等工作提供強大支持。

🚀 快速開始

本部分將介紹如何快速加載和使用該土耳其語RoBERTa模型。

✨ 主要特性

訓練數據豐富：在包含38GB數據和3.297億多個句子的語料庫上進行訓練，涵蓋土耳其語維基百科、土耳其語OSCAR和一些新聞網站的數據。
硬件資源充足：由Turkcell公司使用Intel(R) Xeon(R) Gold 6230R CPU（主頻2.10GHz）、256GB內存和2塊GV100GL [Tesla V100 PCIe 32GB] GPU訓練250萬步得到。

📦 安裝指南

要使用該模型，需先安裝transformers庫，可使用以下命令進行安裝：

pip install transformers

💻 使用示例

基礎用法

以下代碼展示瞭如何加載模型和分詞器：

from transformers import AutoTokenizer, AutoModelForMaskedLM
  
tokenizer = AutoTokenizer.from_pretrained("TURKCELL/roberta-base-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("TURKCELL/roberta-base-turkish-uncased")

高級用法

以下代碼展示瞭如何使用fill-mask管道進行掩碼填充任務：

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="TURKCELL/roberta-base-turkish-uncased",
    tokenizer="TURKCELL/roberta-base-turkish-uncased"
)

fill_mask("iki ülke arasında <mask> başladı")

[{'sequence': 'iki ülke arasında savaş başladı',
  'score': 0.3013845384120941,
  'token': 1359,
  'token_str': ' savaş'},
 {'sequence': 'iki ülke arasında müzakereler başladı',
  'score': 0.1058429479598999,
  'token': 30439,
  'token_str': ' müzakereler'},
 {'sequence': 'iki ülke arasında görüşmeler başladı',
  'score': 0.07718811184167862,
  'token': 4916,
  'token_str': ' görüşmeler'},
 {'sequence': 'iki ülke arasında kriz başladı',
  'score': 0.07174749672412872,
  'token': 3908,
  'token_str': ' kriz'},
 {'sequence': 'iki ülke arasında çatışmalar başladı',
  'score': 0.05678590387105942,
  'token': 19346,
  'token_str': ' çatışmalar'}]