🚀 Tooka-SBERT-V2-Large
Tooka-SBERT-V2-Large 是一个用于语义文本相似度和嵌入任务的句子转换器模型。它能将句子和段落映射到一个密集向量空间,在这个空间中,语义相似的文本距离相近。该模型有 小型 和 大型 两种规格。
🚀 快速开始
本模型是一个经过训练的句子转换器模型,用于语义文本相似度和嵌入任务。它可以将句子和段落映射到一个密集向量空间,在该空间中语义相似的文本距离较近。
直接使用(Sentence Transformers)
首先安装 Sentence Transformers 库:
pip install sentence-transformers==3.4.1
然后,你可以加载此模型并进行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("PartAI/Tooka-SBERT-V2-Large")
sentences = [
'درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.',
'درناها با قامتی بلند و بالهای پهن، از زیباترین پرندگان مهاجر به شمار میروند.',
'درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمیکنند.'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
🔧 技术细节
该模型的训练分为两个阶段:
阶段 1:预训练
- 使用 非对称 设置。
- 输入格式:
- 标题前加上
"سوال: "
- 文本前加上
"متن: "
- 损失函数:
CachedMultipleNegativesRankingLoss
阶段 2:微调
- 损失函数:
CachedMultipleNegativesRankingLoss
CoSENTLoss
- 在多个合成数据集上进行训练
📊 评估
我们在 PTEB 基准测试 上对模型进行了评估。该模型在 PTEB 任务中的平均表现优于 mE5-Base。
对于 检索 和 重排序 任务,我们遵循相同的非对称结构,在查询前加上 "سوال: "
,在文档前加上 "متن: "
。
PTEB 中的特定任务数据集
- 成对分类:
- 分类:
- MassiveIntentClassification
- MassiveScenarioClassification
- MultilingualSentimentClassification
- PersianFoodSentimentClassification
- 检索:
- MIRACLRetrieval
- NeuCLIR2023Retrieval
- WikipediaRetrievalMultilingual
- 重排序:
- MIRACLReranking
- WikipediaRerankingMultilingual
📄 引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}