Tooka-SBERT-V2-Small开源模型 - 精准实现语义文本相似度与嵌入任务

首页

Tooka SBERT V2 Small

由 PartAI 开发

Tooka-SBERT-V2-Small 是一个经过训练的句子转换器模型，用于语义文本相似度和嵌入任务。它能将句子和段落映射到一个密集向量空间，在这个空间中，语义相似的文本会靠得很近。

文本嵌入 #波斯语语义相似度 #密集向量嵌入 #非对称文本处理

下载量 110

发布时间 : 5/13/2025

模型简介

该模型专门用于处理波斯语文本的语义相似度和嵌入任务，通过两阶段训练（预训练和微调）优化性能。

模型特点

两阶段训练

模型经过预训练和微调两个阶段，分别在Targoman News数据集和多个合成数据集上进行优化。

非对称输入处理

支持在输入前添加特定前缀（如'سوال:'和'متن:'）以区分不同类型文本，优化语义理解。

高效性能

在PTEB Benchmark上表现优异，平均性能优于mE5-Base模型。

模型能力

语义文本相似度计算

文本嵌入生成

波斯语文本处理

使用案例

信息检索

文档检索

使用模型生成的嵌入进行文档相似性搜索

在MIRACLRetrieval等数据集上表现良好

文本分类

情感分析

利用文本嵌入进行情感分类

在PersianFoodSentimentClassification等任务中有效

重排序

搜索结果优化

对初步检索结果进行语义重排序

在WikipediaRerankingMultilingual等任务中表现优异

🚀 Tooka-SBERT-V2-Small

Tooka-SBERT-V2-Small 是一个经过训练的句子转换器模型，用于语义文本相似度和嵌入任务。它能将句子和段落映射到一个密集向量空间，在这个空间中，语义相似的文本会靠得很近。该模型有两种尺寸可供选择：Small 和 Large。

🚀 快速开始

直接使用（Sentence Transformers）

首先，安装 Sentence Transformers 库：

pip install sentence-transformers==3.4.1

然后，你可以加载这个模型并进行推理：

from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载
model = SentenceTransformer("PartAI/Tooka-SBERT-V2-Small")
# 进行推理
sentences = [
    'درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.',
    'درناها با قامتی بلند و بال‌های پهن، از زیباترین پرندگان مهاجر به شمار می‌روند.',
    'درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمی‌کنند.'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 获取嵌入的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

🔧 技术细节

训练分两个阶段进行：

预训练：在 Targoman News 数据集上进行。
微调：在多个合成数据集上进行。

阶段 1：预训练

使用 非对称 设置。
输入格式：
- 标题前加上 "سوال: "。
- 文本前加上 "متن: "。
损失函数：CachedMultipleNegativesRankingLoss。

阶段 2：微调

损失函数：
- CachedMultipleNegativesRankingLoss
- CoSENTLoss
在多个合成数据集上使用。

📊 评估

我们在 PTEB Benchmark 上评估了我们的模型。我们的模型在 PTEB 任务中平均性能 优于 mE5-Base。

对于检索和 重排序 任务，我们遵循相同的非对称结构，在前面加上：

"سوال: " 到查询语句。
"متن: " 到文档。

模型	参数数量	成对分类平均得分	分类平均得分	检索平均得分	重排序平均得分	跨任务平均得分
Tooka-SBERT-V2-Large	353M	80.24	74.73	59.80	73.44	72.05
Tooka-SBERT-V2-Small	123M	75.69	72.16	61.24	73.40	70.62
jina-embeddings-v3	572M	71.88	79.27	65.18	64.62	70.24
multilingual-e5-base	278M	70.76	69.71	63.90	76.01	70.09
Tooka-SBERT-V1-Large	353M	81.52	71.54	45.61	60.44	64.78

PTEB 中的特定任务数据集

成对分类：
- FarsTail
分类：
- MassiveIntentClassification
- MassiveScenarioClassification
- MultilingualSentimentClassification
- PersianFoodSentimentClassification
检索：
- MIRACLRetrieval
- NeuCLIR2023Retrieval
- WikipediaRetrievalMultilingual
重排序：
- MIRACLReranking
- WikipediaRerankingMultilingual

📄 许可证

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup}, 
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}