🚀 Tooka-SBERT-V2-Large
このモデルは、意味的なテキストの類似性と埋め込みタスクのためにトレーニングされたSentence Transformersモデルです。文章や段落を密なベクトル空間にマッピングし、意味的に類似したテキストは近くに配置されます。
このモデルは、Small と Large の2つのサイズでトレーニングされています。
🚀 クイックスタート
💻 使用例
基本的な使用法
まず、Sentence Transformersライブラリをインストールします。
pip install sentence-transformers==3.4.1
次に、このモデルをロードして推論を実行できます。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("PartAI/Tooka-SBERT-V2-Large")
sentences = [
'درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.',
'درناها با قامتی بلند و بالهای پهن، از زیباترین پرندگان مهاجر به شمار میروند.',
'درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمیکنند.'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
🔧 技術詳細
トレーニングは2つの段階で行われます。
段階1: 事前学習
- 非対称な設定を使用します。
- 入力フォーマット:
- タイトルの前に
"سوال: "
を付けます。
- テキストの前に
"متن: "
を付けます。
- 損失関数:
CachedMultipleNegativesRankingLoss
段階2: 微調整
- 損失関数:
CachedMultipleNegativesRankingLoss
CoSENTLoss
- 複数の合成データセットで使用されます。
📚 ドキュメント
📊 評価
このモデルは PTEB Benchmark で評価されています。このモデルは、PTEBタスク全体で平均してmE5-Baseを上回っています。
Retrieval と Reranking タスクでは、同じ非対称構造を使用し、次のように前置詞を付けます。
- クエリに
"سوال: "
を付けます。
- ドキュメントに
"متن: "
を付けます。
PTEBにおけるタスク固有のデータセット
-
Pair-Classification:
-
Classification:
- MassiveIntentClassification
- MassiveScenarioClassification
- MultilingualSentimentClassification
- PersianFoodSentimentClassification
-
Retrieval:
- MIRACLRetrieval
- NeuCLIR2023Retrieval
- WikipediaRetrievalMultilingual
-
Reranking:
- MIRACLReranking
- WikipediaRerankingMultilingual
📄 ライセンス
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}