ARA-Reranker-V1开源模型 - 精准处理阿拉伯语重排序，输出文档相关性分数

首页

ARA Reranker V1

由 Omartificial-Intelligence-Space 开发

专为阿拉伯语重排序任务设计的模型，能精准处理查询与段落的关系，直接评估问题与文档之间的相似性，输出相关性分数。

文本嵌入

Transformers

阿拉伯语开源协议:Apache-2.0 #阿拉伯语重排序 #查询-段落相关性 #RAG优化

下载量 795

发布时间 : 11/26/2024

模型简介

该模型通过正例与困难负例的查询-段落组合训练，在识别最相关结果方面表现卓越。输出分数可通过Sigmoid函数转换为[0, 1]范围，提供清晰可解释的相关性度量。

模型特点

阿拉伯语优化

专为阿拉伯语设计，能精准处理阿拉伯语查询与段落的关系。

直接相关性评估

与生成向量表示的嵌入模型不同，直接评估问题与文档之间的相似性，输出相关性分数。

高质量训练数据

通过正例与困难负例的查询-段落组合训练，模型在识别最相关结果方面表现卓越。

可解释性

输出分数可通过Sigmoid函数转换为[0, 1]范围，提供清晰可解释的相关性度量。

模型能力

阿拉伯语文本重排序

查询-文档相关性评估

RAG流程优化

使用案例

信息检索

搜索引擎结果优化

对搜索引擎返回的阿拉伯语结果进行重排序，提升最相关结果的排名。

显著提升搜索结果的相关性

问答系统

在阿拉伯语问答系统中，对候选答案进行重排序，选择最相关的答案。

提高问答系统的准确率

RAG流程

检索增强生成

在RAG流程中，对检索到的文档进行重排序，为生成阶段提供最相关的上下文。

提升生成内容的质量和相关性

🚀 引入 ARM-V1 | 阿拉伯语重排模型（版本 1）

✨ 此模型专为阿拉伯语重排任务设计，经过优化，能够精准处理查询和段落。 ✨ 与生成向量表示的嵌入模型不同，该重排器可直接评估问题与文档之间的相似度，并输出相关性得分。 ✨ 它基于正样本和难负样本的查询 - 段落对进行训练，在识别最相关结果方面表现出色。 ✨ 输出分数可通过 sigmoid 函数转换到 [0, 1] 范围内，提供清晰且可解释的相关性度量。

更多信息请参考此博客：ARM | 阿拉伯语重排模型。

🚀 快速开始

本部分将为你介绍 ARM-V1 模型的相关使用信息。

✨ 主要特性

专为阿拉伯语重排任务定制，精准处理查询与段落。
直接评估问题与文档相似度，输出相关性得分。
基于正样本和难负样本的查询 - 段落对训练，识别相关结果能力强。
输出分数可通过 sigmoid 函数转换至 [0, 1] 范围，方便理解。

📦 安装指南

使用 sentence-transformers

pip install sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import CrossEncoder

# Load the cross-encoder model

# Define a query and a set of candidates with varying degrees of relevance
query = "تطبيقات الذكاء الاصطناعي تُستخدم في مختلف المجالات لتحسين الكفاءة."

# Candidates with varying relevance to the query
candidates = [
    "الذكاء الاصطناعي يساهم في تحسين الإنتاجية في الصناعات المختلفة.", # Highly relevant
    "نماذج التعلم الآلي يمكنها التعرف على الأنماط في مجموعات البيانات الكبيرة.", # Moderately relevant
    "الذكاء الاصطناعي يساعد الأطباء في تحليل الصور الطبية بشكل أفضل.", # Somewhat relevant
    "تستخدم الحيوانات التمويه كوسيلة للهروب من الحيوانات المفترسة.", # Irrelevant
]

# Create pairs of (query, candidate) for each candidate
query_candidate_pairs = [(query, candidate) for candidate in candidates]

# Get relevance scores from the model
scores = model.predict(query_candidate_pairs)

# Combine candidates with their scores and sort them by score in descending order (higher score = higher relevance)
ranked_candidates = sorted(zip(candidates, scores), key=lambda x: x[1], reverse=True)

# Output the ranked candidates with their scores
print("Ranked candidates based on relevance to the query:")
for i, (candidate, score) in enumerate(ranked_candidates, 1):
    print(f"Rank {i}:")
    print(f"Candidate: {candidate}")
    print(f"Score: {score}\n")

📚 详细文档

阿拉伯语 RAG 管道

评估

数据集

规模：3000 个样本。
结构：
- 🔸 查询：代表用户问题的字符串。
- 🔸 候选文档：用于回答查询的候选段落。
- 🔸 相关性标签：二进制标签（相关为 1，不相关为 0）。

评估过程

🔸 查询分组：对查询进行分组，以评估模型为每个查询正确排序候选文档的能力。
🔸 模型预测：每个模型为与查询对应的所有候选文档预测相关性得分。
🔸 指标计算：计算指标，以衡量模型将相关文档排在不相关文档之上的能力。

模型	MRR	MAP	nDCG@10
cross-encoder/ms - marco - MiniLM - L - 6 - v2	0.631	0.6313	0.725
cross-encoder/ms - marco - MiniLM - L - 12 - v2	0.664	0.664	0.750
BAAI/bge - reranker - v2 - m3	0.902	0.902	0.927
Omartificial - Intelligence - Space/ARA - Reranker - V1	0.934	0.9335	0.951

📄 许可证

本项目采用 Apache-2.0 许可证。

📚 引用

如果你使用了 ARM-V1 模型，请按以下方式引用：

@misc{nacar2025ARM,
      title={ARM, Arabic Reranker Model}, 
      author={Omer Nacar},
      year={2025},
      url={https://huggingface.co/Omartificial-Intelligence-Space/ARA-Reranker-V1},
}