🚀 Tooka-SBERT-V2-Small
Tooka-SBERT-V2-Small 是一個經過訓練的句子轉換器模型,用於語義文本相似度和嵌入任務。它能將句子和段落映射到一個密集向量空間,在這個空間中,語義相似的文本會靠得很近。該模型有兩種尺寸可供選擇:Small 和 Large。
🚀 快速開始
直接使用(Sentence Transformers)
首先,安裝 Sentence Transformers 庫:
pip install sentence-transformers==3.4.1
然後,你可以加載這個模型並進行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("PartAI/Tooka-SBERT-V2-Small")
sentences = [
'درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.',
'درناها با قامتی بلند و بالهای پهن، از زیباترین پرندگان مهاجر به شمار میروند.',
'درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمیکنند.'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
🔧 技術細節
訓練分兩個階段進行:
- 預訓練:在 Targoman News 數據集上進行。
- 微調:在多個合成數據集上進行。
階段 1:預訓練
- 使用 非對稱 設置。
- 輸入格式:
- 標題前加上
"سوال: "
。
- 文本前加上
"متن: "
。
- 損失函數:
CachedMultipleNegativesRankingLoss
。
階段 2:微調
- 損失函數:
CachedMultipleNegativesRankingLoss
CoSENTLoss
- 在多個合成數據集上使用。
📊 評估
我們在 PTEB Benchmark 上評估了我們的模型。我們的模型在 PTEB 任務中平均性能 優於 mE5-Base。
對於 檢索 和 重排序 任務,我們遵循相同的非對稱結構,在前面加上:
"سوال: "
到查詢語句。
"متن: "
到文檔。
PTEB 中的特定任務數據集
- 成對分類:
- 分類:
- MassiveIntentClassification
- MassiveScenarioClassification
- MultilingualSentimentClassification
- PersianFoodSentimentClassification
- 檢索:
- MIRACLRetrieval
- NeuCLIR2023Retrieval
- WikipediaRetrievalMultilingual
- 重排序:
- MIRACLReranking
- WikipediaRerankingMultilingual
📄 許可證
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}