tavbert - trオープンソースモデル - トルコ語に対する文字レベルの言語処理機能の実装

ホーム

Tavbert Tr

tauによって開発

トルコ語向けのBERTスタイルのマスク言語モデルで、文字レベルで動作し、SpanBERTのような文字スパンマスク手法を用いて事前学習されています。

大規模言語モデル

Transformers

その他#トルコ語文字レベルBERT #スパンマスク事前学習 #OSCARデータセット

ダウンロード数 15

リリース時間 : 4/9/2022

モデル概要

TavBERTはトルコ語専用に設計された事前学習言語モデルで、文字レベルの処理方式を採用し、トルコ語の形態論的特性をより適切に処理できます。

モデル特徴

文字レベル処理

単語レベルではなく文字レベルで処理を行うため、トルコ語の形態論的特性に適しています

スパンマスク事前学習

SpanBERTのような文字スパンマスク手法を使用して事前学習を行い、モデルの性能を向上させます

大規模トレーニングデータ

OSCARのトルコ語部分（27GBのテキスト）に基づいてトレーニングされています

モデル能力

トルコ語テキスト理解

マスク言語モデリング

文字レベル予測

使用事例

自然言語処理

トルコ語テキスト補完

マスクされたトルコ語テキストの断片を予測します

マスクされた文字シーケンスを正確に予測できます

トルコ語言語モデル

下流のNLPタスクのベースモデルとして使用します

属性	详情
モデルタイプ	トルコ語のBERTスタイルのマスク付き言語モデル
学習データ	OSCAR (Ortiz, 2019) のトルコ語セクション (27 GBのテキスト、7700万文)

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Tavbert Tr

モデル概要

モデル特徴

モデル能力

使用事例

🚀 TavBERT base model

🚀 クイックスタート

使い方

📚 ドキュメント

学習データ