Tooka-SBERT開源波斯語嵌入模型 - 免費實現文本語義相似度計算

首頁

Tooka SBERT

由PartAI開發

這是一個基於TookaBERT-Large的波斯語句子嵌入模型，可將文本映射到1024維向量空間，用於語義相似度計算等任務。

文本嵌入

Safetensors

其他開源協議:Apache-2.0 #波斯語句子相似度 #1024維向量嵌入 #語義搜索優化

下載量 2,847

發布時間 : 12/3/2024

模型概述

該模型是專為波斯語設計的句子轉換器，能夠將句子和段落轉換為密集向量表示，適用於語義文本相似性、語義搜索、文本分類和聚類等任務。

模型特點

波斯語優化

專門針對波斯語文本進行優化，能夠準確捕捉波斯語語義特徵

高效相似度計算

使用餘弦相似度快速計算句子間的語義相似度

大規模預訓練

基於TookaBERT-Large預訓練模型，具有強大的語義表示能力

模型能力

語義文本相似度計算

語義搜索

複述挖掘

文本分類

文本聚類

使用案例

信息檢索

相似文檔檢索

在波斯語文檔庫中查找語義相似的文檔

內容推薦

相關內容推薦

根據用戶瀏覽內容推薦語義相似的波斯語內容

文本分析

文本聚類分析

對波斯語文本進行自動聚類分析

🚀 SentenceTransformer

本項目是一個經過訓練的 sentence-transformers 模型。它能夠將句子和段落映射到一個 1024 維的密集向量空間，可用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等任務。

🚀 快速開始

本模型可將句子和段落映射到 1024 維的密集向量空間，適用於語義文本相似度計算、語義搜索等多種自然語言處理任務。

✨ 主要特性

支持波斯語句子和段落的處理。
能夠將輸入映射到 1024 維的密集向量空間。
可用於語義文本相似度、語義搜索、釋義挖掘、文本分類、聚類等多種任務。

📦 安裝指南

首先，你需要安裝 Sentence Transformers 庫：

pip install -U sentence-transformers

💻 使用示例

基礎用法

安裝完成後，你可以加載這個模型並進行推理：

from sentence_transformers import SentenceTransformer

# 從 🤗 Hub 下載模型
model = SentenceTransformer("PartAI/Tooka-SBERT")
# 進行推理
sentences = [
    'درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.',
    'درناها با قامتی بلند و بال‌های پهن، از زیباترین پرندگان مهاجر به شمار می‌روند.',
    'درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمی‌کنند.'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# 獲取嵌入向量的相似度分數
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	Sentence Transformer
基礎模型	TookaBERT-Large
最大序列長度	512 個詞元
輸出維度	1024 個詞元
相似度函數	餘弦相似度
語言	波斯語

📄 許可證

本項目採用 Apache-2.0 許可證。

📖 引用

如果你使用了本模型，請按照以下格式引用：

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup}, 
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}