ARA-Reranker-V1開源模型 - 精準處理阿拉伯語重排序，輸出文檔相關性分數

首頁

ARA Reranker V1

由Omartificial-Intelligence-Space開發

專為阿拉伯語重排序任務設計的模型，能精準處理查詢與段落的關係，直接評估問題與文檔之間的相似性，輸出相關性分數。

文本嵌入

Transformers

阿拉伯語開源協議:Apache-2.0 #阿拉伯語重排序 #查詢-段落相關性 #RAG優化

下載量 795

發布時間 : 11/26/2024

模型概述

該模型通過正例與困難負例的查詢-段落組合訓練，在識別最相關結果方面表現卓越。輸出分數可通過Sigmoid函數轉換為[0, 1]範圍，提供清晰可解釋的相關性度量。

模型特點

阿拉伯語優化

專為阿拉伯語設計，能精準處理阿拉伯語查詢與段落的關係。

直接相關性評估

與生成向量表示的嵌入模型不同，直接評估問題與文檔之間的相似性，輸出相關性分數。

高質量訓練數據

通過正例與困難負例的查詢-段落組合訓練，模型在識別最相關結果方面表現卓越。

可解釋性

輸出分數可通過Sigmoid函數轉換為[0, 1]範圍，提供清晰可解釋的相關性度量。

模型能力

阿拉伯語文本重排序

查詢-文檔相關性評估

RAG流程優化

使用案例

信息檢索

搜索引擎結果優化

對搜索引擎返回的阿拉伯語結果進行重排序，提升最相關結果的排名。

顯著提升搜索結果的相關性

問答系統

在阿拉伯語問答系統中，對候選答案進行重排序，選擇最相關的答案。

提高問答系統的準確率

RAG流程

檢索增強生成

在RAG流程中，對檢索到的文檔進行重排序，為生成階段提供最相關的上下文。

提升生成內容的質量和相關性

🚀 引入 ARM-V1 | 阿拉伯語重排模型（版本 1）

✨ 此模型專為阿拉伯語重排任務設計，經過優化，能夠精準處理查詢和段落。 ✨ 與生成向量表示的嵌入模型不同，該重排器可直接評估問題與文檔之間的相似度，並輸出相關性得分。 ✨ 它基於正樣本和難負樣本的查詢 - 段落對進行訓練，在識別最相關結果方面表現出色。 ✨ 輸出分數可通過 sigmoid 函數轉換到 [0, 1] 範圍內，提供清晰且可解釋的相關性度量。

更多信息請參考此博客：ARM | 阿拉伯語重排模型。

🚀 快速開始

本部分將為你介紹 ARM-V1 模型的相關使用信息。

✨ 主要特性

專為阿拉伯語重排任務定製，精準處理查詢與段落。
直接評估問題與文檔相似度，輸出相關性得分。
基於正樣本和難負樣本的查詢 - 段落對訓練，識別相關結果能力強。
輸出分數可通過 sigmoid 函數轉換至 [0, 1] 範圍，方便理解。

📦 安裝指南

使用 sentence-transformers

pip install sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import CrossEncoder

# Load the cross-encoder model

# Define a query and a set of candidates with varying degrees of relevance
query = "تطبيقات الذكاء الاصطناعي تُستخدم في مختلف المجالات لتحسين الكفاءة."

# Candidates with varying relevance to the query
candidates = [
    "الذكاء الاصطناعي يساهم في تحسين الإنتاجية في الصناعات المختلفة.", # Highly relevant
    "نماذج التعلم الآلي يمكنها التعرف على الأنماط في مجموعات البيانات الكبيرة.", # Moderately relevant
    "الذكاء الاصطناعي يساعد الأطباء في تحليل الصور الطبية بشكل أفضل.", # Somewhat relevant
    "تستخدم الحيوانات التمويه كوسيلة للهروب من الحيوانات المفترسة.", # Irrelevant
]

# Create pairs of (query, candidate) for each candidate
query_candidate_pairs = [(query, candidate) for candidate in candidates]

# Get relevance scores from the model
scores = model.predict(query_candidate_pairs)

# Combine candidates with their scores and sort them by score in descending order (higher score = higher relevance)
ranked_candidates = sorted(zip(candidates, scores), key=lambda x: x[1], reverse=True)

# Output the ranked candidates with their scores
print("Ranked candidates based on relevance to the query:")
for i, (candidate, score) in enumerate(ranked_candidates, 1):
    print(f"Rank {i}:")
    print(f"Candidate: {candidate}")
    print(f"Score: {score}\n")

📚 詳細文檔

阿拉伯語 RAG 管道

評估

數據集

規模：3000 個樣本。
結構：
- 🔸 查詢：代表用戶問題的字符串。
- 🔸 候選文檔：用於回答查詢的候選段落。
- 🔸 相關性標籤：二進制標籤（相關為 1，不相關為 0）。

評估過程

🔸 查詢分組：對查詢進行分組，以評估模型為每個查詢正確排序候選文檔的能力。
🔸 模型預測：每個模型為與查詢對應的所有候選文檔預測相關性得分。
🔸 指標計算：計算指標，以衡量模型將相關文檔排在不相關文檔之上的能力。

模型	MRR	MAP	nDCG@10
cross-encoder/ms - marco - MiniLM - L - 6 - v2	0.631	0.6313	0.725
cross-encoder/ms - marco - MiniLM - L - 12 - v2	0.664	0.664	0.750
BAAI/bge - reranker - v2 - m3	0.902	0.902	0.927
Omartificial - Intelligence - Space/ARA - Reranker - V1	0.934	0.9335	0.951

📄 許可證

本項目採用 Apache-2.0 許可證。

📚 引用

如果你使用了 ARM-V1 模型，請按以下方式引用：

@misc{nacar2025ARM,
      title={ARM, Arabic Reranker Model}, 
      author={Omer Nacar},
      year={2025},
      url={https://huggingface.co/Omartificial-Intelligence-Space/ARA-Reranker-V1},
}