RoBERTa-TR-medium-bpe-16kオープンソースモデル - トルコ語のテキスト処理をサポート。大文字小文字を区別する必要なし

Home

Roberta TR Medium Bpe 16k

Developed by ctoraman

トルコ語を使用したマスク言語モデリング（MLM）目標で事前学習されたRoBERTaモデルで、大文字小文字を区別せず、中規模アーキテクチャです。

大規模言語モデル

Transformers

Other#トルコ語テキスト処理 #中規模モデル #BPEトークン化

Downloads 26

Release Time : 3/8/2022

Model Overview

このモデルはトルコ語に最適化されたRoBERTaの変種で、中規模アーキテクチャ（8層、8ヘッド、512隠れサイズ）を採用し、BPEトークン化アルゴリズム（16.7k語彙）を使用しています。事前学習データはクリーニングされたOSCARトルコ語コーパスから取得されており、トルコ語の自然言語処理タスクに適しています。

Model Features

トルコ語最適化

トルコ語の特性に特化して事前学習と最適化が行われています

中規模アーキテクチャ

8層のTransformerアーキテクチャを採用し、性能と効率のバランスを取っています

BPEトークン化

16.7k語彙のByte Pair Encodingトークン化アルゴリズムを使用しています

大文字小文字を区別しない

モデルはアルファベットの大文字小文字を区別せず、トルコ語の特性に適しています

データクリーニング

事前学習データは追加のフィルタリングとクリーニングが行われており、品質が高いです

Model Capabilities

トルコ語テキスト理解

マスク言語モデリング

シーケンス分類（ファインチューニングが必要）

下流NLPタスクの転移学習

Use Cases

自然言語処理

トルコ語テキスト分類

感情分析、トピック分類などのタスクに使用可能

固有表現認識

トルコ語テキスト中の人名、地名などのエンティティを識別

質問応答システム

トルコ語質問応答システムの基礎モデルとして使用

🚀 RoBERTa Turkish medium BPE 16k (uncased)

このモデルは、マスク言語モデリング（MLM）の目的でトルコ語に対して事前学習されたモデルです。大文字小文字を区別しません。事前学習のコーパスはOSCARのトルコ語部分で、さらにフィルタリングとクリーニングが行われています。

✨ 主な機能

トルコ語に特化した事前学習モデルです。
モデルアーキテクチャはbert - mediumに似ており、8層、8ヘッド、隠れ層のサイズは512です。
トークン化アルゴリズムはBPEで、語彙サイズは16.7kです。

📦 インストール

このセクションでは、インストールに関する具体的なコマンドが元文書に記載されていないため、省略します。

💻 使用例

基本的な使用法

# 以下のコードはモデルの読み込みとトークン化に使用できます。例の最大長（514）は変更可能です。
model = AutoModel.from_pretrained([model_path])
#for sequence classification:
#model = AutoModelForSequenceClassification.from_pretrained([model_path], num_labels=[num_classes])

tokenizer = PreTrainedTokenizerFast(tokenizer_file=[file_path])
tokenizer.mask_token = "[MASK]"
tokenizer.cls_token = "[CLS]"
tokenizer.sep_token = "[SEP]"
tokenizer.pad_token = "[PAD]"
tokenizer.unk_token = "[UNK]"
tokenizer.bos_token = "[CLS]"
tokenizer.eos_token = "[SEP]"
tokenizer.model_max_length = 514

📚 ドキュメント

詳細と性能比較については、この論文を参照してください。 https://arxiv.org/abs/2204.08832

🔧 技術詳細

モデルアーキテクチャはbert - mediumに似ており、8層、8ヘッド、隠れ層のサイズは512です。
トークン化アルゴリズムはBPEで、語彙サイズは16.7kです。

📄 ライセンス

このモデルのライセンスはcc - by - nc - sa - 4.0です。

BibTeX entry and citation info

@misc{https://doi.org/10.48550/arxiv.2204.08832,
  doi = {10.48550/ARXIV.2204.08832},
  url = {https://arxiv.org/abs/2204.08832},
  author = {Toraman, Cagri and Yilmaz, Eyup Halit and Şahinuç, Furkan and Ozcelik, Oguzhan},
  keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {Impact of Tokenization on Language Models: An Analysis for Turkish},
  publisher = {arXiv},
  year = {2022},
  copyright = {Creative Commons Attribution Non Commercial Share Alike 4.0 International}
}

属性	详情
モデルタイプ	RoBERTa Turkish medium BPE 16k (uncased)
学習データ	OSCARのトルコ語部分（さらにフィルタリングとクリーニングが行われています）