开源阿拉伯语句子相似度模型Arabic-all-nli-triplet-Matryoshka

Home

Arabic All Nli Triplet Matryoshka

Developed by Omartificial-Intelligence-Space

基于sentence-transformers/paraphrase-multilingual-mpnet-base-v2微调的阿拉伯语句子相似度模型，支持特征提取和训练生成

文本嵌入

Safetensors

ArabicOpen Source License:Apache-2.0 #阿拉伯语句子相似度 #多语言嵌入模型 #高精度检索

Downloads 2,523

Release Time : 6/14/2024

Model Overview

该模型专门针对阿拉伯语优化，用于计算句子相似度和特征提取任务，采用MatryoshkaLoss和MultipleNegativesRankingLoss联合训练

Model Features

多语言基础模型微调

基于强大的多语言模型paraphrase-multilingual-mpnet-base-v2进行阿拉伯语专项优化

双重损失函数

结合MatryoshkaLoss和MultipleNegativesRankingLoss进行联合训练，提升模型性能

大规模训练数据

使用557,850条阿拉伯语NLI三元组数据进行训练

多维评估指标

支持皮尔逊和斯皮尔曼相关系数的多种距离度量评估

Model Capabilities

阿拉伯语句子相似度计算

句子特征提取

文本语义匹配

跨语言文本检索

Use Cases

信息检索

阿拉伯语文档检索

用于阿拉伯语搜索引擎中的相关文档检索

在MIRACL阿拉伯语检索任务中NDCG@10达到26.274

文本匹配

问答系统

匹配用户问题与知识库中的最佳答案

🚀 Omartificial-Intelligence-Space/Arabic-all-nli-triplet-Matryoshka

这是一个基于sentence-transformers库的模型，用于处理阿拉伯语的句子相似度任务。它基于sentence-transformers/paraphrase-multilingual-mpnet-base-v2基础模型，在特定数据集上进行训练，可用于特征提取和检索等任务。

🚀 快速开始

该模型可直接使用sentence-transformers库进行加载和推理，以下是一些使用示例：

示例输入

{
    "source_sentence": "ذكر متوازن بعناية يقف على قدم واحدة بالقرب من منطقة شاطئ المحيط النظيفة",
    "sentences": [
        "رجل يقدم عرضاً",
        "هناك رجل بالخارج قرب الشاطئ",
        "رجل يجلس على أريكه"
    ]
}

示例输出

模型会计算源句子与每个候选句子之间的相似度得分。

✨ 主要特性

多语言支持：基于多语言基础模型，可处理阿拉伯语相关任务。
多种损失函数：使用MatryoshkaLoss和MultipleNegativesRankingLoss进行训练。
丰富的评估指标：使用多种评估指标，如pearson_cosine、spearman_cosine等，全面评估模型性能。

📦 安装

要使用该模型，需要安装sentence-transformers库：

pip install sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
import numpy as np

# 加载模型
model = SentenceTransformer('Omartificial-Intelligence-Space/Arabic-all-nli-triplet-Matryoshka')

# 定义源句子和候选句子
source_sentence = "ذكر متوازن بعناية يقف على قدم واحدة بالقرب من منطقة شاطئ المحيط النظيفة"
sentences = [
    "رجل يقدم عرضاً",
    "هناك رجل بالخارج قرب الشاطئ",
    "رجل يجلس على أريكه"
]

# 编码句子
source_embedding = model.encode(source_sentence)
sentence_embeddings = model.encode(sentences)

# 计算相似度
for i, embedding in enumerate(sentence_embeddings):
    similarity = np.dot(source_embedding, embedding) / (np.linalg.norm(source_embedding) * np.linalg.norm(embedding))
    print(f"与句子 '{sentences[i]}' 的相似度: {similarity}")

📚 详细文档

模型信息

属性	详情
模型类型	`sentence-transformers`模型
基础模型	`sentence-transformers/paraphrase-multilingual-mpnet-base-v2`
数据集	`Omartificial-Intelligence-Space/Arabic-NLi-Triplet`
损失函数	`MatryoshkaLoss`, `MultipleNegativesRankingLoss`
评估指标	`pearson_cosine`, `spearman_cosine`, `pearson_manhattan`, `spearman_manhattan`, `pearson_euclidean`, `spearman_euclidean`, `pearson_dot`, `spearman_dot`, `pearson_max`, `spearman_max`

评估结果

MTEB MIRACLRetrieval (ar)

指标	值
ndcg_at_1	19.233
ndcg_at_3	21.393
ndcg_at_5	23.347
...	...

MTEB MIRACLRetrievalHardNegatives (ar)

指标	值
ndcg_at_1	20.7
ndcg_at_3	23.766
ndcg_at_5	26.479
...	...

MTEB MLQARetrieval (ara-ara)

指标	值
ndcg_at_1	51.451
ndcg_at_3	60.302
ndcg_at_5	62.432
...	...

MTEB MLQARetrieval (ara-deu)

指标	值
ndcg_at_1	51.691
ndcg_at_3	63.365
ndcg_at_5	65.922
...	...

MTEB MLQARetrieval (ara-eng)

指标	值
ndcg_at_1	51.838
ndcg_at_3	61.207
ndcg_at_5	63.57
...	...

🔧 技术细节

该模型基于sentence-transformers库构建，使用了MatryoshkaLoss和MultipleNegativesRankingLoss进行训练。在训练过程中，模型学习将句子映射到低维向量空间，使得语义相似的句子在向量空间中距离更近。通过在特定的阿拉伯语数据集上进行训练，模型能够更好地处理阿拉伯语的句子相似度任务。