Tookabert Large
TookaBERTは、ペルシア語で学習された一連のエンコーダーモデルで、基礎版と大規模モデル版の2種類の仕様があり、500GBを超えるペルシア語データで事前学習され、様々なトピックが含まれています。
ダウンロード数 271
リリース時間 : 4/29/2024
モデル概要
TookaBERTは、ペルシア語用に設計された事前学習言語モデルで、MLM(WWM)目的関数を採用し、様々なNLP下流タスクをサポートします。TookaBERT-Largeは、ペルシア語で事前学習された最初の大型エンコーダーモデルで、ペルシア語タスクで優れた性能を発揮します。
モデル特徴
大規模なペルシア語事前学習
500GBを超えるペルシア語データで事前学習され、データにはニュース、ブログ、フォーラム、書籍など様々なトピックが含まれています。
2種類のモデル仕様
基礎版と大規模モデル版の2種類の仕様を提供し、異なる計算リソースと性能要件を満たします。
先進的な学習目標
MLM(WWM)目的関数を採用し、2種類のコンテキスト長で事前学習され、モデルの理解能力を向上させます。
トップクラスの性能
TookaBERT-Largeは、ペルシア語で事前学習された最初の大型エンコーダーモデルで、複数のペルシア語NLPタスクで最良の性能を発揮します。
モデル能力
マスク言語モデリング
テキスト分類
感情分析
固有表現認識
質問応答システム
多肢選択タスク
読解
使用事例
感情分析
DeepSentiPers感情分析
ペルシア語テキストの感情分析タスクに使用
F1スコア85.66、正解率85.78
固有表現認識
MultiCoNER - v2固有表現認識
ペルシア語の固有表現認識タスクに使用
F1スコア69.69、正解率94.07
質問応答システム
PQuAD質問応答タスク
ペルシア語の質問応答タスクに使用
最高の正確一致率75.56、最高のF1スコア88.06
テキスト推論
FarsTailテキスト推論
ペルシア語のテキスト推論タスクに使用
F1スコア89.71、正解率89.72
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98