Namaa-ARA-Reranker-V1開源模型 - 精準評估阿拉伯語查詢段落相關性

首頁

Namaa ARA Reranker V1

由NAMAA-Space開發

專為阿拉伯語重排序任務設計的模型，能夠精準處理查詢與段落的相關性評估。

文本嵌入

Transformers

阿拉伯語開源協議:Apache-2.0 #阿拉伯語RAG #查詢-段落相關性評估 #高精度重排序

下載量 56

發布時間 : 11/28/2024

模型概述

該模型通過正例與困難負例的查詢-段落組合訓練，在識別最相關結果方面表現卓越，輸出分數可通過Sigmoid函數轉換為[0, 1]區間值，提供清晰可解釋的相關性度量。

模型特點

阿拉伯語優化

專為阿拉伯語設計，能夠精準處理阿拉伯語查詢與段落的相關性評估。

直接相關性評估

與生成向量表示的嵌入模型不同，本重排序器直接評估問題與文檔之間的相似度，輸出相關性分數。

高精度排序

通過正例與困難負例的查詢-段落組合訓練，模型在識別最相關結果方面表現卓越。

可解釋性

輸出分數可通過Sigmoid函數轉換為[0, 1]區間值，提供清晰可解釋的相關性度量。

模型能力

文本相關性評估

阿拉伯語文本處理

查詢-段落匹配

使用案例

信息檢索

搜索引擎結果排序

對搜索引擎返回的結果進行重排序，提升最相關結果的排名。

顯著提升搜索結果的相關性

問答系統

在問答系統中對候選答案進行排序，選擇最相關的答案。

提高問答系統的準確率

推薦系統

內容推薦

根據用戶查詢對推薦內容進行排序，提升推薦的相關性。

改善用戶體驗

🚀 引入 ARM-V1 | 阿拉伯語重排模型（版本1）

ARM-V1 是專門為阿拉伯語重排任務設計的模型，能夠精準處理查詢和段落，直接評估問題與文檔之間的相似度並輸出相關性得分，在識別最相關結果方面表現出色。

更多信息請參考此博客：ARM | 阿拉伯語重排模型。

✨ 主要特性

專為阿拉伯語重排任務量身定製，能精確處理查詢和段落。
與嵌入模型不同，該重排器直接評估問題與文檔的相似度，輸出相關性得分。
通過正負查詢 - 段落對組合進行訓練，擅長識別最相關的結果。
輸出分數可使用 sigmoid 函數轉換到 [0, 1] 範圍，提供清晰且可解釋的相關性度量。

📚 詳細文檔

阿拉伯語 RAG 流程

💻 使用示例

基礎用法

使用 sentence-transformers 庫調用模型：

pip install sentence-transformers

from sentence_transformers import CrossEncoder

# 加載交叉編碼器模型

# 定義一個查詢和一組具有不同相關性的候選文檔
query = "تطبيقات الذكاء الاصطناعي تُستخدم في مختلف المجالات لتحسين الكفاءة."

# 與查詢具有不同相關性的候選文檔
candidates = [
    "الذكاء الاصطناعي يساهم في تحسين الإنتاجية في الصناعات المختلفة.", # 高度相關
    "نماذج التعلم الآلي يمكنها التعرف على الأنماط في مجموعات البيانات الكبيرة.", # 中度相關
    "الذكاء الاصطناعي يساعد الأطباء في تحليل الصور الطبية بشكل أفضل.", # 有點相關
    "تستخدم الحيوانات التمويه كوسيلة للهروب من الحيوانات المفترسة.", # 不相關
]

# 為每個候選文檔創建 (查詢, 候選文檔) 對
query_candidate_pairs = [(query, candidate) for candidate in candidates]

# 從模型獲取相關性得分
scores = model.predict(query_candidate_pairs)

# 將候選文檔與其得分組合，並按得分降序排序（得分越高，相關性越高）
ranked_candidates = sorted(zip(candidates, scores), key=lambda x: x[1], reverse=True)

# 輸出按與查詢相關性排序的候選文檔及其得分
print("Ranked candidates based on relevance to the query:")
for i, (candidate, score) in enumerate(ranked_candidates, 1):
    print(f"Rank {i}:")
    print(f"Candidate: {candidate}")
    print(f"Score: {score}\n")

🔧 技術細節

評估

數據集

規模：3000 個樣本。
結構：
- 查詢：代表用戶問題的字符串。
- 候選文檔：用於回答查詢的候選段落。
- 相關性標籤：二進制標籤（相關為 1，不相關為 0）。

評估過程

查詢分組：對查詢進行分組，以評估模型為每個查詢正確排序候選文檔的能力。
模型預測：每個模型為與查詢對應的所有候選文檔預測相關性得分。
指標計算：計算指標以衡量模型將相關文檔排在不相關文檔之上的能力。

模型	MRR	MAP	nDCG@10
cross-encoder/ms - marco - MiniLM - L - 6 - v2	0.631	0.6313	0.725
cross-encoder/ms - marco - MiniLM - L - 12 - v2	0.664	0.664	0.750
BAAI/bge - reranker - v2 - m3	0.902	0.902	0.927
Omartificial - Intelligence - Space/ARA - Reranker - V1	0.934	0.9335	0.951

📄 許可證

本項目採用 Apache 2.0 許可證。

📖 致謝

作者感謝蘇丹王子大學在本項目中提供的寶貴支持。他們的貢獻和資源對這些模型的開發和微調起到了重要作用。

📚 引用

如果您使用了 ARM-V1 模型，請按以下方式引用：

@misc{nacar2025ARM,
      title={ARM, Arabic Reranker Model}, 
      author={Omer Nacar},
      year={2025},
      url={https://huggingface.co/Omartificial-Intelligence-Space/ARA-Reranker-V1},
}