🚀 基于FacebookAI/xlm - roberta - large的句子转换器模型
本项目是基于FacebookAI/xlm - roberta - large
的句子转换器模型,可将句子和段落映射到1024维的密集向量空间,用于语义文本相似度、语义搜索等多种自然语言处理任务。此版本在阿拉伯语 - 英语的相关指标上表现更优,为开发者和研究者提供了更灵活的应用选择。
🚀 快速开始
这是之前发布的 [omarelshehy/arabic - english - sts - matryoshka](https://huggingface.co/omarelshehy/arabic - english - sts - matryoshka) 模型的 v2.0 版本。
📊 此版本在MTEB指标上表现更佳,尤其是在 阿拉伯语 - 英语 指标方面。不过,不要仅仅依赖这些指标,建议你亲自测试模型,看看它是否符合你的需求! ✅
✨ 主要特性
- 双语支持:该模型是一个 双语(阿拉伯语 - 英语) 的 sentence - transformers 模型,从 [FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) 微调而来。它可以分别处理两种语言,也支持两种语言的互换使用,为开发者和研究者提供了灵活的应用方式。
- 多任务应用:可用于 语义文本相似度、语义搜索、释义挖掘、文本分类、聚类 等多种自然语言处理任务。
- Matryoshka嵌入支持:支持Matryoshka嵌入,允许根据任务需求将嵌入截断为更小的尺寸,以优化性能和内存使用。可用的截断尺寸包括 1024、768、512、256、128和64。
📦 安装指南
首先安装Sentence Transformers库:
pip install -U sentence-transformers
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
matryoshka_dim = 786
model = SentenceTransformer("omarelshehy/arabic-english-sts-matryoshka-v2.0", truncate_dim=matryoshka_dim)
sentences = [
"She enjoyed reading books by the window as the rain poured outside.",
"كانت تستمتع بقراءة الكتب بجانب النافذة بينما كانت الأمطار تتساقط في الخارج.",
"Reading by the window was her favorite thing, especially during rainy days."
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
📚 详细文档
模型描述
这是一个 双语(阿拉伯语 - 英语) 的 sentence - transformers 模型,从 [FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) 微调而来。它将句子和段落映射到1024维的密集向量空间,可用于 语义文本相似度、语义搜索、释义挖掘、文本分类、聚类 等多种任务。
该模型可以分别处理两种语言,也支持两种语言的互换使用,为想要进一步基于阿拉伯语模型进行开发的开发者和研究者提供了灵活的应用方式。
模型信息
属性 |
详情 |
模型类型 |
句子转换器 |
基础模型 |
[FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) |
最大序列长度 |
512个标记 |
输出维度 |
1024个标记 |
相似度函数 |
余弦相似度 |
Matryoshka嵌入 🪆
该模型支持Matryoshka嵌入,允许你根据任务需求将嵌入截断为更小的尺寸,以优化性能和内存使用。可用的截断尺寸包括:1024、768、512、256、128和64。
你可以根据具体用例选择合适的嵌入尺寸,确保资源管理的灵活性。
🔧 技术细节
评估指标
本模型使用了多种评估指标,包括皮尔逊相关系数和斯皮尔曼相关系数,基于不同的距离度量(如余弦、曼哈顿、欧几里得)。以下是部分数据集上的评估结果:
- MTEB STS17 (en - en):在英语 - 英语的数据集上,余弦皮尔逊相关系数为87.38302667611983,余弦斯皮尔曼相关系数为86.87900209442004等。
- MTEB STS17 (ar - ar):在阿拉伯语 - 阿拉伯语的数据集上,余弦皮尔逊相关系数为83.63516310524058,余弦斯皮尔曼相关系数为83.77655124170212等。
- MTEB STS17 (en - ar):在英语 - 阿拉伯语的数据集上,余弦皮尔逊相关系数为82.29919720659755,余弦斯皮尔曼相关系数为82.18717939041626等。
引用信息
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}