開源阿拉伯語句子相似度模型Arabic-all-nli-triplet-Matryoshka

首頁

Arabic All Nli Triplet Matryoshka

由Omartificial-Intelligence-Space開發

基於sentence-transformers/paraphrase-multilingual-mpnet-base-v2微調的阿拉伯語句子相似度模型，支持特徵提取和訓練生成

文本嵌入

Safetensors

阿拉伯語開源協議:Apache-2.0 #阿拉伯語句子相似度 #多語言嵌入模型 #高精度檢索

下載量 2,523

發布時間 : 6/14/2024

模型概述

該模型專門針對阿拉伯語優化，用於計算句子相似度和特徵提取任務，採用MatryoshkaLoss和MultipleNegativesRankingLoss聯合訓練

模型特點

多語言基礎模型微調

基於強大的多語言模型paraphrase-multilingual-mpnet-base-v2進行阿拉伯語專項優化

雙重損失函數

結合MatryoshkaLoss和MultipleNegativesRankingLoss進行聯合訓練，提升模型性能

大規模訓練數據

使用557,850條阿拉伯語NLI三元組數據進行訓練

多維評估指標

支持皮爾遜和斯皮爾曼相關係數的多種距離度量評估

模型能力

阿拉伯語句子相似度計算

句子特徵提取

文本語義匹配

跨語言文本檢索

使用案例

信息檢索

阿拉伯語文檔檢索

用於阿拉伯語搜索引擎中的相關文檔檢索

在MIRACL阿拉伯語檢索任務中NDCG@10達到26.274

文本匹配

問答系統

匹配用戶問題與知識庫中的最佳答案

🚀 Omartificial-Intelligence-Space/Arabic-all-nli-triplet-Matryoshka

這是一個基於sentence-transformers庫的模型，用於處理阿拉伯語的句子相似度任務。它基於sentence-transformers/paraphrase-multilingual-mpnet-base-v2基礎模型，在特定數據集上進行訓練，可用於特徵提取和檢索等任務。

🚀 快速開始

該模型可直接使用sentence-transformers庫進行加載和推理，以下是一些使用示例：

示例輸入

{
    "source_sentence": "ذكر متوازن بعناية يقف على قدم واحدة بالقرب من منطقة شاطئ المحيط النظيفة",
    "sentences": [
        "رجل يقدم عرضاً",
        "هناك رجل بالخارج قرب الشاطئ",
        "رجل يجلس على أريكه"
    ]
}

示例輸出

模型會計算源句子與每個候選句子之間的相似度得分。

✨ 主要特性

多語言支持：基於多語言基礎模型，可處理阿拉伯語相關任務。
多種損失函數：使用MatryoshkaLoss和MultipleNegativesRankingLoss進行訓練。
豐富的評估指標：使用多種評估指標，如pearson_cosine、spearman_cosine等，全面評估模型性能。

📦 安裝

要使用該模型，需要安裝sentence-transformers庫：

pip install sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
import numpy as np

# 加載模型
model = SentenceTransformer('Omartificial-Intelligence-Space/Arabic-all-nli-triplet-Matryoshka')

# 定義源句子和候選句子
source_sentence = "ذكر متوازن بعناية يقف على قدم واحدة بالقرب من منطقة شاطئ المحيط النظيفة"
sentences = [
    "رجل يقدم عرضاً",
    "هناك رجل بالخارج قرب الشاطئ",
    "رجل يجلس على أريكه"
]

# 編碼句子
source_embedding = model.encode(source_sentence)
sentence_embeddings = model.encode(sentences)

# 計算相似度
for i, embedding in enumerate(sentence_embeddings):
    similarity = np.dot(source_embedding, embedding) / (np.linalg.norm(source_embedding) * np.linalg.norm(embedding))
    print(f"與句子 '{sentences[i]}' 的相似度: {similarity}")

📚 詳細文檔

模型信息

屬性	詳情
模型類型	`sentence-transformers`模型
基礎模型	`sentence-transformers/paraphrase-multilingual-mpnet-base-v2`
數據集	`Omartificial-Intelligence-Space/Arabic-NLi-Triplet`
損失函數	`MatryoshkaLoss`, `MultipleNegativesRankingLoss`
評估指標	`pearson_cosine`, `spearman_cosine`, `pearson_manhattan`, `spearman_manhattan`, `pearson_euclidean`, `spearman_euclidean`, `pearson_dot`, `spearman_dot`, `pearson_max`, `spearman_max`

評估結果

MTEB MIRACLRetrieval (ar)

指標	值
ndcg_at_1	19.233
ndcg_at_3	21.393
ndcg_at_5	23.347
...	...

MTEB MIRACLRetrievalHardNegatives (ar)

指標	值
ndcg_at_1	20.7
ndcg_at_3	23.766
ndcg_at_5	26.479
...	...

MTEB MLQARetrieval (ara-ara)

指標	值
ndcg_at_1	51.451
ndcg_at_3	60.302
ndcg_at_5	62.432
...	...

MTEB MLQARetrieval (ara-deu)

指標	值
ndcg_at_1	51.691
ndcg_at_3	63.365
ndcg_at_5	65.922
...	...

MTEB MLQARetrieval (ara-eng)

指標	值
ndcg_at_1	51.838
ndcg_at_3	61.207
ndcg_at_5	63.57
...	...

🔧 技術細節

該模型基於sentence-transformers庫構建，使用了MatryoshkaLoss和MultipleNegativesRankingLoss進行訓練。在訓練過程中，模型學習將句子映射到低維向量空間，使得語義相似的句子在向量空間中距離更近。通過在特定的阿拉伯語數據集上進行訓練，模型能夠更好地處理阿拉伯語的句子相似度任務。