Tooka-SBERT-V2-Smallオープンソースモデル - 意味的なテキストの類似度と埋め込みタスクを高精度に実現

Tooka SBERT V2 Small

PartAIによって開発

Tooka - SBERT - V2 - Smallは、意味的テキスト類似度と埋め込みタスクに使用するために訓練された文変換モデルです。これは、文や段落を密集ベクトル空間にマッピングし、この空間では意味的に類似したテキストが近くに位置します。

テキスト埋め込み #ペルシャ語の意味的類似度 #密集ベクトル埋め込み #非対称テキスト処理

ダウンロード数 110

リリース時間 : 5/13/2025

モデル概要

このモデルは、ペルシャ語テキストの意味的類似度と埋め込みタスクを処理するために特別に設計されており、2段階の訓練（事前訓練と微調整）によって性能を最適化しています。

モデル特徴

2段階訓練

モデルは事前訓練と微調整の2段階を経ており、それぞれTargoman Newsデータセットと複数の合成データセットで最適化されています。

非対称入力処理

特定の接頭辞（例：「سوال:」と「متن:」）を入力前に追加して異なるタイプのテキストを区別し、意味理解を最適化することをサポートしています。

高効率性能

PTEB Benchmarkで優れた性能を発揮し、平均性能はmE5 - Baseモデルを上回っています。

モデル能力

意味的テキスト類似度計算

テキスト埋め込み生成

ペルシャ語テキスト処理

使用事例

情報検索

文書検索

モデルが生成した埋め込みを使用して文書の類似性検索を行います。

MIRACLRetrievalなどのデータセットで良好な性能を示します。

テキスト分類

感情分析

テキスト埋め込みを利用して感情分類を行います。

PersianFoodSentimentClassificationなどのタスクで有効です。

再ランキング

検索結果最適化

最初の検索結果を意味的に再ランキングします。

WikipediaRerankingMultilingualなどのタスクで優れた性能を示します。

🚀 Tooka-SBERT-V2-Small

このモデルは、意味的なテキストの類似性と埋め込みタスクのために学習されたSentence Transformersモデルです。文章や段落を密なベクトル空間にマッピングし、意味的に類似したテキストは近くに配置されます。

このモデルは、Small と Large の2つのサイズで学習されています。

🚀 クイックスタート

直接使用（Sentence Transformers）

まず、Sentence Transformersライブラリをインストールします。

pip install sentence-transformers==3.4.1

次に、このモデルをロードして推論を実行できます。

from sentence_transformers import SentenceTransformer

# 🤗 Hubからダウンロード
model = SentenceTransformer("PartAI/Tooka-SBERT-V2-Small")
# 推論を実行
sentences = [
    'درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.',
    'درناها با قامتی بلند و بال‌های پهن، از زیباترین پرندگان مهاجر به شمار می‌روند.',
    'درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمی‌کنند.'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 埋め込みの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

🔧 技術詳細

学習は2段階で行われます。

事前学習：Targoman News データセットで行います。
微調整：複数の合成データセットで行います。

第1段階：事前学習

非対称な設定を使用します。
入力のフォーマット：
- タイトルの前に "سوال: " を付けます。
- テキストの前に "متن: " を付けます。
損失関数：CachedMultipleNegativesRankingLoss

第2段階：微調整

損失関数：
- CachedMultipleNegativesRankingLoss
- CoSENTLoss
複数の合成データセットで使用されます。

📚 ドキュメント

📊 評価

私たちは、PTEB Benchmark でモデルを評価しました。当モデルは、PTEBタスク全体で平均してmE5-Baseを上回っています。

検索および 再ランキング タスクでは、同じ非対称構造を使用し、次のように前置詞を付けます。

クエリに "سوال: " を付けます。
ドキュメントに "متن: " を付けます。

モデル	#パラメータ	ペア分類平均	分類平均	検索平均	再ランキング平均	クロスタスク平均
Tooka-SBERT-V2-Large	353M	80.24	74.73	59.80	73.44	72.05
Tooka-SBERT-V2-Small	123M	75.69	72.16	61.24	73.40	70.62
jina-embeddings-v3	572M	71.88	79.27	65.18	64.62	70.24
multilingual-e5-base	278M	70.76	69.71	63.90	76.01	70.09
Tooka-SBERT-V1-Large	353M	81.52	71.54	45.61	60.44	64.78

PTEBにおけるタスク固有のデータセット

ペア分類：
- FarsTail
分類：
- MassiveIntentClassification
- MassiveScenarioClassification
- MultilingualSentimentClassification
- PersianFoodSentimentClassification
検索：
- MIRACLRetrieval
- NeuCLIR2023Retrieval
- WikipediaRetrievalMultilingual
再ランキング：
- MIRACLReranking
- WikipediaRerankingMultilingual

📄 ライセンス

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup}, 
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}