R

Roberta TR Medium Bpe 16k

Developed by ctoraman
トルコ語を使用したマスク言語モデリング(MLM)目標で事前学習されたRoBERTaモデルで、大文字小文字を区別せず、中規模アーキテクチャです。
Downloads 26
Release Time : 3/8/2022

Model Overview

このモデルはトルコ語に最適化されたRoBERTaの変種で、中規模アーキテクチャ(8層、8ヘッド、512隠れサイズ)を採用し、BPEトークン化アルゴリズム(16.7k語彙)を使用しています。事前学習データはクリーニングされたOSCARトルコ語コーパスから取得されており、トルコ語の自然言語処理タスクに適しています。

Model Features

トルコ語最適化
トルコ語の特性に特化して事前学習と最適化が行われています
中規模アーキテクチャ
8層のTransformerアーキテクチャを採用し、性能と効率のバランスを取っています
BPEトークン化
16.7k語彙のByte Pair Encodingトークン化アルゴリズムを使用しています
大文字小文字を区別しない
モデルはアルファベットの大文字小文字を区別せず、トルコ語の特性に適しています
データクリーニング
事前学習データは追加のフィルタリングとクリーニングが行われており、品質が高いです

Model Capabilities

トルコ語テキスト理解
マスク言語モデリング
シーケンス分類(ファインチューニングが必要)
下流NLPタスクの転移学習

Use Cases

自然言語処理
トルコ語テキスト分類
感情分析、トピック分類などのタスクに使用可能
固有表現認識
トルコ語テキスト中の人名、地名などのエンティティを識別
質問応答システム
トルコ語質問応答システムの基礎モデルとして使用
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase