arabic-english-sts-matryoshka-v2.0开源模型 - 免费支持阿英语义文本相似度计算

首页

Arabic English Sts Matryoshka V2.0

由 omarelshehy 开发

基于FacebookAI/xlm-roberta-large微调的双语句子转换器模型，支持阿拉伯语和英语的语义文本相似度计算。

文本嵌入

Safetensors

支持多种语言#双语语义相似度 #俄罗斯套娃嵌入 #阿拉伯语-英语

下载量 1,072

发布时间 : 10/16/2024

模型简介

这是一个双语（阿拉伯语-英语）的sentence-transformers模型，基于FacebookAI/xlm-roberta-large微调而成。它将句子和段落映射到一个1024维的密集向量空间，可用于语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等任务。

模型特点

双语支持

支持阿拉伯语和英语的双语处理，包括跨语言语义相似度计算。

俄罗斯套娃嵌入

支持将嵌入截断为更小尺寸（1024、768、512、256、128和64），以优化性能和内存使用。

高性能

在MTEB评估指标上表现优异，特别是在阿拉伯语-英语(ar-en)指标上。

模型能力

语义文本相似度计算

语义搜索

释义挖掘

文本分类

文本聚类

使用案例

自然语言处理

跨语言文档检索

在阿拉伯语和英语文档之间进行语义搜索和检索。

双语文本分类

对阿拉伯语和英语文本进行分类。

🚀 基于FacebookAI/xlm - roberta - large的句子转换器模型

本项目是基于FacebookAI/xlm - roberta - large的句子转换器模型，可将句子和段落映射到1024维的密集向量空间，用于语义文本相似度、语义搜索等多种自然语言处理任务。此版本在阿拉伯语 - 英语的相关指标上表现更优，为开发者和研究者提供了更灵活的应用选择。

🚀 快速开始

这是之前发布的 [omarelshehy/arabic - english - sts - matryoshka](https://huggingface.co/omarelshehy/arabic - english - sts - matryoshka) 模型的 v2.0 版本。

📊 此版本在MTEB指标上表现更佳，尤其是在 阿拉伯语 - 英语 指标方面。不过，不要仅仅依赖这些指标，建议你亲自测试模型，看看它是否符合你的需求！ ✅

✨ 主要特性

双语支持：该模型是一个 双语（阿拉伯语 - 英语） 的 sentence - transformers 模型，从 [FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) 微调而来。它可以分别处理两种语言，也支持两种语言的互换使用，为开发者和研究者提供了灵活的应用方式。
多任务应用：可用于 语义文本相似度、语义搜索、释义挖掘、文本分类、聚类 等多种自然语言处理任务。
Matryoshka嵌入支持：支持Matryoshka嵌入，允许根据任务需求将嵌入截断为更小的尺寸，以优化性能和内存使用。可用的截断尺寸包括 1024、768、512、256、128和64。

📦 安装指南

首先安装Sentence Transformers库：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer

# 从🤗 Hub下载模型
matryoshka_dim = 786
model = SentenceTransformer("omarelshehy/arabic-english-sts-matryoshka-v2.0", truncate_dim=matryoshka_dim)
# 运行推理
sentences = [
    "She enjoyed reading books by the window as the rain poured outside.",
    "كانت تستمتع بقراءة الكتب بجانب النافذة بينما كانت الأمطار تتساقط في الخارج.",
    "Reading by the window was her favorite thing, especially during rainy days."
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# 获取嵌入的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 详细文档

模型描述

这是一个 双语（阿拉伯语 - 英语） 的 sentence - transformers 模型，从 [FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) 微调而来。它将句子和段落映射到1024维的密集向量空间，可用于 语义文本相似度、语义搜索、释义挖掘、文本分类、聚类 等多种任务。

该模型可以分别处理两种语言，也支持两种语言的互换使用，为想要进一步基于阿拉伯语模型进行开发的开发者和研究者提供了灵活的应用方式。

模型信息

属性	详情
模型类型	句子转换器
基础模型	[FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large)
最大序列长度	512个标记
输出维度	1024个标记
相似度函数	余弦相似度

Matryoshka嵌入 🪆

该模型支持Matryoshka嵌入，允许你根据任务需求将嵌入截断为更小的尺寸，以优化性能和内存使用。可用的截断尺寸包括：1024、768、512、256、128和64。

你可以根据具体用例选择合适的嵌入尺寸，确保资源管理的灵活性。

🔧 技术细节

评估指标

本模型使用了多种评估指标，包括皮尔逊相关系数和斯皮尔曼相关系数，基于不同的距离度量（如余弦、曼哈顿、欧几里得）。以下是部分数据集上的评估结果：

MTEB STS17 (en - en)：在英语 - 英语的数据集上，余弦皮尔逊相关系数为87.38302667611983，余弦斯皮尔曼相关系数为86.87900209442004等。
MTEB STS17 (ar - ar)：在阿拉伯语 - 阿拉伯语的数据集上，余弦皮尔逊相关系数为83.63516310524058，余弦斯皮尔曼相关系数为83.77655124170212等。
MTEB STS17 (en - ar)：在英语 - 阿拉伯语的数据集上，余弦皮尔逊相关系数为82.29919720659755，余弦斯皮尔曼相关系数为82.18717939041626等。

引用信息

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}