Tooka-SBERT-V2-Small開源模型 - 精準實現語義文本相似度與嵌入任務

首頁

Tooka SBERT V2 Small

由PartAI開發

Tooka-SBERT-V2-Small 是一個經過訓練的句子轉換器模型，用於語義文本相似度和嵌入任務。它能將句子和段落映射到一個密集向量空間，在這個空間中，語義相似的文本會靠得很近。

文本嵌入 #波斯語語義相似度 #密集向量嵌入 #非對稱文本處理

下載量 110

發布時間 : 5/13/2025

模型概述

該模型專門用於處理波斯語文本的語義相似度和嵌入任務，通過兩階段訓練（預訓練和微調）優化性能。

模型特點

兩階段訓練

模型經過預訓練和微調兩個階段，分別在Targoman News數據集和多個合成數據集上進行優化。

非對稱輸入處理

支持在輸入前添加特定前綴（如'سوال:'和'متن:'）以區分不同類型文本，優化語義理解。

高效性能

在PTEB Benchmark上表現優異，平均性能優於mE5-Base模型。

模型能力

語義文本相似度計算

文本嵌入生成

波斯語文本處理

使用案例

信息檢索

文檔檢索

使用模型生成的嵌入進行文檔相似性搜索

在MIRACLRetrieval等數據集上表現良好

文本分類

情感分析

利用文本嵌入進行情感分類

在PersianFoodSentimentClassification等任務中有效

重排序

搜索結果優化

對初步檢索結果進行語義重排序

在WikipediaRerankingMultilingual等任務中表現優異

🚀 Tooka-SBERT-V2-Small

Tooka-SBERT-V2-Small 是一個經過訓練的句子轉換器模型，用於語義文本相似度和嵌入任務。它能將句子和段落映射到一個密集向量空間，在這個空間中，語義相似的文本會靠得很近。該模型有兩種尺寸可供選擇：Small 和 Large。

🚀 快速開始

直接使用（Sentence Transformers）

首先，安裝 Sentence Transformers 庫：

pip install sentence-transformers==3.4.1

然後，你可以加載這個模型並進行推理：

from sentence_transformers import SentenceTransformer

# 從 🤗 Hub 下載
model = SentenceTransformer("PartAI/Tooka-SBERT-V2-Small")
# 進行推理
sentences = [
    'درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.',
    'درناها با قامتی بلند و بال‌های پهن، از زیباترین پرندگان مهاجر به شمار می‌روند.',
    'درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمی‌کنند.'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 獲取嵌入的相似度分數
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

🔧 技術細節

訓練分兩個階段進行：

預訓練：在 Targoman News 數據集上進行。
微調：在多個合成數據集上進行。

階段 1：預訓練

使用 非對稱 設置。
輸入格式：
- 標題前加上 "سوال: "。
- 文本前加上 "متن: "。
損失函數：CachedMultipleNegativesRankingLoss。

階段 2：微調

損失函數：
- CachedMultipleNegativesRankingLoss
- CoSENTLoss
在多個合成數據集上使用。

📊 評估

我們在 PTEB Benchmark 上評估了我們的模型。我們的模型在 PTEB 任務中平均性能 優於 mE5-Base。

對於檢索和 重排序 任務，我們遵循相同的非對稱結構，在前面加上：

"سوال: " 到查詢語句。
"متن: " 到文檔。

模型	參數數量	成對分類平均得分	分類平均得分	檢索平均得分	重排序平均得分	跨任務平均得分
Tooka-SBERT-V2-Large	353M	80.24	74.73	59.80	73.44	72.05
Tooka-SBERT-V2-Small	123M	75.69	72.16	61.24	73.40	70.62
jina-embeddings-v3	572M	71.88	79.27	65.18	64.62	70.24
multilingual-e5-base	278M	70.76	69.71	63.90	76.01	70.09
Tooka-SBERT-V1-Large	353M	81.52	71.54	45.61	60.44	64.78

PTEB 中的特定任務數據集

成對分類：
- FarsTail
分類：
- MassiveIntentClassification
- MassiveScenarioClassification
- MultilingualSentimentClassification
- PersianFoodSentimentClassification
檢索：
- MIRACLRetrieval
- NeuCLIR2023Retrieval
- WikipediaRetrievalMultilingual
重排序：
- MIRACLReranking
- WikipediaRerankingMultilingual

📄 許可證

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup}, 
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}