roberta-base-turkish-uncasedオープンソースモデル - トルコ語のテキスト処理と分析を支援

ホーム

Roberta Base Turkish Uncased

TURKCELLによって開発

これはトルコ語のRoBERTaベースモデルで、事前学習データはトルコ語ウィキペディア、トルコ語OSCARコーパス、および一部のニュースサイトから取得されています。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #トルコ語事前学習 #テキスト穴埋め予測 #大規模コーパス学習

ダウンロード数 109

リリース時間 : 12/7/2023

モデル概要

このモデルはトルコ語の大文字小文字を区別しないRoBERTaモデルで、主にトルコ語のテキスト理解と生成タスクに使用されます。

モデル特徴

大規模事前学習データ

38GBのトルコ語テキストデータを使用して訓練され、329,720,508の文を含んでいます。

高性能ハードウェア訓練

Intel Xeon GoldプロセッサとTesla V100グラフィックカードを使用して訓練されました。

トルコ語最適化

トルコ語の特性に特化して最適化されており、トルコ語ウィキペディアとニュースデータを含んでいます。

モデル能力

トルコ語テキスト理解

マスク言語モデリング

テキスト穴埋めタスク

使用事例

自然言語処理

テキスト穴埋め

文中のマスクされた単語を予測する

例に示されているように、'iki ülke arasında <mask> başladı'の空白の単語を正確に予測できます

テキスト生成

文脈に基づいて一貫性のあるトルコ語テキストを生成する

🚀 トルコ語版RoBERTaモデル

このモデルは、トルコ語のWikipedia、トルコ語のOSCAR、および一部のニュースウェブサイトを用いて事前学習されたトルコ語版RoBERTaベースモデルです。最終的な学習コーパスは38GBのサイズで、329,720,508文を含んでいます。Turkcellとして、このモデルはIntel(R) Xeon(R) Gold 6230R CPU @ 2.10GHz、256GBのRAM、および2つのGV100GL [Tesla V100 PCIe 32GB] GPUを搭載した環境で250万ステップの学習を行いました。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
  
tokenizer = AutoTokenizer.from_pretrained("TURKCELL/roberta-base-turkish-uncased")
model = AutoModelForMaskedLM.from_pretrained("TURKCELL/roberta-base-turkish-uncased")

高度な使用法

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="TURKCELL/roberta-base-turkish-uncased",
    tokenizer="TURKCELL/roberta-base-turkish-uncased"
)

fill_mask("iki Ã¼lke arasÄ±nda <mask> baÅŸladÄ±")

[{'sequence': 'iki Ã¼lke arasÄ±nda savaÅŸ baÅŸladÄ±',
  'score': 0.3013845384120941,
  'token': 1359,
  'token_str': ' savaÅŸ'},
 {'sequence': 'iki Ã¼lke arasÄ±nda mÃ¼zakereler baÅŸladÄ±',
  'score': 0.1058429479598999,
  'token': 30439,
  'token_str': ' mÃ¼zakereler'},
 {'sequence': 'iki Ã¼lke arasÄ±nda gÃ¶rÃ¼ÅŸmeler baÅŸladÄ±',
  'score': 0.07718811184167862,
  'token': 4916,
  'token_str': ' gÃ¶rÃ¼ÅŸmeler'},
 {'sequence': 'iki Ã¼lke arasÄ±nda kriz baÅŸladÄ±',
  'score': 0.07174749672412872,
  'token': 3908,
  'token_str': ' kriz'},
 {'sequence': 'iki Ã¼lke arasÄ±nda Ã§atÄ±ÅŸmalar baÅŸladÄ±',
  'score': 0.05678590387105942,
  'token': 19346,
  'token_str': ' Ã§atÄ±ÅŸmalar'}]