🚀 Omartificial-Intelligence-Space/Arabic-all-nli-triplet-Matryoshka
這是一個基於sentence-transformers
庫的模型,用於處理阿拉伯語的句子相似度任務。它基於sentence-transformers/paraphrase-multilingual-mpnet-base-v2
基礎模型,在特定數據集上進行訓練,可用於特徵提取和檢索等任務。
🚀 快速開始
該模型可直接使用sentence-transformers
庫進行加載和推理,以下是一些使用示例:
示例輸入
{
"source_sentence": "ذكر متوازن بعناية يقف على قدم واحدة بالقرب من منطقة شاطئ المحيط النظيفة",
"sentences": [
"رجل يقدم عرضاً",
"هناك رجل بالخارج قرب الشاطئ",
"رجل يجلس على أريكه"
]
}
示例輸出
模型會計算源句子與每個候選句子之間的相似度得分。
✨ 主要特性
- 多語言支持:基於多語言基礎模型,可處理阿拉伯語相關任務。
- 多種損失函數:使用
MatryoshkaLoss
和MultipleNegativesRankingLoss
進行訓練。
- 豐富的評估指標:使用多種評估指標,如
pearson_cosine
、spearman_cosine
等,全面評估模型性能。
📦 安裝
要使用該模型,需要安裝sentence-transformers
庫:
pip install sentence-transformers
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
import numpy as np
model = SentenceTransformer('Omartificial-Intelligence-Space/Arabic-all-nli-triplet-Matryoshka')
source_sentence = "ذكر متوازن بعناية يقف على قدم واحدة بالقرب من منطقة شاطئ المحيط النظيفة"
sentences = [
"رجل يقدم عرضاً",
"هناك رجل بالخارج قرب الشاطئ",
"رجل يجلس على أريكه"
]
source_embedding = model.encode(source_sentence)
sentence_embeddings = model.encode(sentences)
for i, embedding in enumerate(sentence_embeddings):
similarity = np.dot(source_embedding, embedding) / (np.linalg.norm(source_embedding) * np.linalg.norm(embedding))
print(f"與句子 '{sentences[i]}' 的相似度: {similarity}")
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
sentence-transformers 模型 |
基礎模型 |
sentence-transformers/paraphrase-multilingual-mpnet-base-v2 |
數據集 |
Omartificial-Intelligence-Space/Arabic-NLi-Triplet |
損失函數 |
MatryoshkaLoss , MultipleNegativesRankingLoss |
評估指標 |
pearson_cosine , spearman_cosine , pearson_manhattan , spearman_manhattan , pearson_euclidean , spearman_euclidean , pearson_dot , spearman_dot , pearson_max , spearman_max |
評估結果
MTEB MIRACLRetrieval (ar)
指標 |
值 |
ndcg_at_1 |
19.233 |
ndcg_at_3 |
21.393 |
ndcg_at_5 |
23.347 |
... |
... |
MTEB MIRACLRetrievalHardNegatives (ar)
指標 |
值 |
ndcg_at_1 |
20.7 |
ndcg_at_3 |
23.766 |
ndcg_at_5 |
26.479 |
... |
... |
MTEB MLQARetrieval (ara-ara)
指標 |
值 |
ndcg_at_1 |
51.451 |
ndcg_at_3 |
60.302 |
ndcg_at_5 |
62.432 |
... |
... |
MTEB MLQARetrieval (ara-deu)
指標 |
值 |
ndcg_at_1 |
51.691 |
ndcg_at_3 |
63.365 |
ndcg_at_5 |
65.922 |
... |
... |
MTEB MLQARetrieval (ara-eng)
指標 |
值 |
ndcg_at_1 |
51.838 |
ndcg_at_3 |
61.207 |
ndcg_at_5 |
63.57 |
... |
... |
🔧 技術細節
該模型基於sentence-transformers
庫構建,使用了MatryoshkaLoss
和MultipleNegativesRankingLoss
進行訓練。在訓練過程中,模型學習將句子映射到低維向量空間,使得語義相似的句子在向量空間中距離更近。通過在特定的阿拉伯語數據集上進行訓練,模型能夠更好地處理阿拉伯語的句子相似度任務。
📄 許可證
請參考該模型所在倉庫的具體許可證信息。