🚀 SentenceTransformer
本项目是一个经过训练的 sentence-transformers 模型。它能够将句子和段落映射到一个 1024 维的密集向量空间,可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等任务。
🚀 快速开始
本模型可将句子和段落映射到 1024 维的密集向量空间,适用于语义文本相似度计算、语义搜索等多种自然语言处理任务。
✨ 主要特性
- 支持波斯语句子和段落的处理。
- 能够将输入映射到 1024 维的密集向量空间。
- 可用于语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等多种任务。
📦 安装指南
首先,你需要安装 Sentence Transformers 库:
pip install -U sentence-transformers
💻 使用示例
基础用法
安装完成后,你可以加载这个模型并进行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("PartAI/Tooka-SBERT")
sentences = [
'درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.',
'درناها با قامتی بلند و بالهای پهن، از زیباترین پرندگان مهاجر به شمار میروند.',
'درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمیکنند.'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
Sentence Transformer |
基础模型 |
TookaBERT-Large |
最大序列长度 |
512 个词元 |
输出维度 |
1024 个词元 |
相似度函数 |
余弦相似度 |
语言 |
波斯语 |
📄 许可证
本项目采用 Apache-2.0 许可证。
📖 引用
如果你使用了本模型,请按照以下格式引用:
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}