TookaBERT-Largeオープンソースモデル - 膨大なペルシャ語データに基づき、多様なテーマのニーズを満たす

ホーム

Tookabert Large

PartAIによって開発

TookaBERTは、ペルシア語で学習された一連のエンコーダーモデルで、基礎版と大規模モデル版の2種類の仕様があり、500GBを超えるペルシア語データで事前学習され、様々なトピックが含まれています。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #ペルシア語の事前学習 #大型エンコーダー #マルチタスクでトップ

ダウンロード数 271

リリース時間 : 4/29/2024

モデル概要

TookaBERTは、ペルシア語用に設計された事前学習言語モデルで、MLM（WWM）目的関数を採用し、様々なNLP下流タスクをサポートします。TookaBERT-Largeは、ペルシア語で事前学習された最初の大型エンコーダーモデルで、ペルシア語タスクで優れた性能を発揮します。

モデル特徴

大規模なペルシア語事前学習

500GBを超えるペルシア語データで事前学習され、データにはニュース、ブログ、フォーラム、書籍など様々なトピックが含まれています。

2種類のモデル仕様

基礎版と大規模モデル版の2種類の仕様を提供し、異なる計算リソースと性能要件を満たします。

先進的な学習目標

MLM（WWM）目的関数を採用し、2種類のコンテキスト長で事前学習され、モデルの理解能力を向上させます。

トップクラスの性能

TookaBERT-Largeは、ペルシア語で事前学習された最初の大型エンコーダーモデルで、複数のペルシア語NLPタスクで最良の性能を発揮します。

モデル能力

マスク言語モデリング

テキスト分類

感情分析

固有表現認識

質問応答システム

多肢選択タスク

読解

使用事例

感情分析

DeepSentiPers感情分析

ペルシア語テキストの感情分析タスクに使用

F1スコア85.66、正解率85.78

固有表現認識

MultiCoNER - v2固有表現認識

ペルシア語の固有表現認識タスクに使用

F1スコア69.69、正解率94.07

質問応答システム

PQuAD質問応答タスク

ペルシア語の質問応答タスクに使用

最高の正確一致率75.56、最高のF1スコア88.06

テキスト推論

FarsTailテキスト推論

ペルシア語のテキスト推論タスクに使用

F1スコア89.71、正解率89.72

🚀 TookaBERTモデル

TookaBERTは、ペルシャ語で訓練された一連のエンコーダーモデルで、ベース版とラージ版の2種類があります。このモデルは、500GBを超えるペルシャ語データで事前学習されており、データにはニュース、ブログ、フォーラム、書籍など様々な主題が含まれています。MLM（WWM）目的関数を用いて、2種類のコンテキスト長で事前学習されています。TookaBERT-Largeは、ペルシャ語で事前学習された最初の大型エンコーダーモデルで、現在、ペルシャ語タスクでトップレベルの性能を発揮しています。

詳細情報については、arXivに掲載されている当社の論文をご覧ください。

🚀 クイックスタート

✨ 主な機能

TookaBERTモデルには、ベース版とラージ版の2種類があります。
500GBを超えるペルシャ語データで事前学習されており、データの主題は豊富です。
MLM（WWM）目的関数を用いて、2種類のコンテキスト長で事前学習されています。
TookaBERT-Largeは、ペルシャ語で事前学習された最初の大型エンコーダーモデルで、ペルシャ語タスクで優れた性能を発揮します。

💻 使用例

基本的な使用法

以下のコードを使用して、直接マスク言語モデリングを行うことができます。

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("PartAI/TookaBERT-Large")
model = AutoModelForMaskedLM.from_pretrained("PartAI/TookaBERT-Large")

# prepare input
text = "شهر برلین در کشور <mask> واقع شده است."
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

高度な使用法

推論パイプラインを使用することもできます。例を以下に示します。

from transformers import pipeline

inference_pipeline = pipeline('fill-mask', model="PartAI/TookaBERT-Large")
inference_pipeline("شهر برلین در کشور <mask> واقع شده است.")

また、このモデルを自分のデータセットで微調整して、特定のタスクに適合させることもできます。例えば、

DeepSentiPers（感情分析）
ParsiNLU - Multiple-choice（多肢選択）

📚 ドキュメント

TookaBERTモデルは、一連のNLP下流タスクで評価されており、感情分析（SA）、テキスト分類、多肢選択、質問応答、固有表現認識（NER）などが含まれます。以下は、いくつかの重要な性能結果です。

属性	詳細
モデルタイプ	TookaBERT-large、TookaBERT-baseなど
訓練データ	500GBを超えるペルシャ語データで、ニュース、ブログ、フォーラム、書籍など様々な主題が含まれています

モデル名	DeepSentiPers (f1/acc)	MultiCoNER-v2 (f1/acc)	PQuAD (best_exact/best_f1/HasAns_exact/HasAns_f1)	FarsTail (f1/acc)	ParsiNLU-Multiple-choice (f1/acc)	ParsiNLU-Reading-comprehension (exact/f1)	ParsiNLU-QQP (f1/acc)
TookaBERT-large	85.66/85.78	69.69/94.07	75.56/88.06/70.24/87.83	89.71/89.72	36.13/35.97	33.6/60.5	82.72/82.63
TookaBERT-base	83.93/83.93	66.23/93.3	73.18/85.71/68.29/85.94	83.26/83.41	33.6/33.81	20.8/42.52	81.33/81.29
Shiraz	81.17/81.08	59.1/92.83	65.96/81.25/59.63/81.31	77.76/77.75	34.73/34.53	17.6/39.61	79.68/79.51
ParsBERT	80.22/80.23	64.91/93.23	71.41/84.21/66.29/84.57	80.89/80.94	35.34/35.25	20/39.58	80.15/80.07
XLM-V-base	83.43/83.36	58.83/92.23	73.26/85.69/68.21/85.56	81.1/81.2	35.28/35.25	8/26.66	80.1/79.96
XLM-RoBERTa-base	83.99/84.07	60.38/92.49	73.72/86.24/68.16/85.8	82.0/81.98	32.4/32.37	20.0/40.43	79.14/78.95
FaBERT	82.68/82.65	63.89/93.01	72.57/85.39/67.16/85.31	83.69/83.67	32.47/32.37	27.2/48.42	82.34/82.29
mBERT	78.57/78.66	60.31/92.54	71.79/84.68/65.89/83.99	82.69/82.82	33.41/33.09	27.2/42.18	79.19/79.29
AriaBERT	80.51/80.51	60.98/92.45	68.09/81.23/62.12/80.94	74.47/74.43	30.75/30.94	14.4/35.48	79.09/78.84