🚀 Mizan-Rerank-v1
Mizan-Rerank-v1是一款革命性的开源模型,专为阿拉伯语长文本重排序而设计,具备卓越的效率和准确性,能有效提升阿拉伯语搜索结果的质量。

🚀 快速开始
Mizan-Rerank-v1是基于Transformer架构的领先开源模型,专为阿拉伯语文本的搜索结果重排序而设计。它仅拥有1.49亿个参数,在性能和效率之间实现了完美平衡,在使用显著更少资源的情况下,表现优于更大的模型。
✨ 主要特性
- 轻量级且高效:仅1.49亿个参数,而竞争对手的参数数量在2.78 - 5.68亿之间。
- 长文本处理:使用滑动窗口技术,可处理多达8192个标记。
- 高速推理:比同类模型快3倍。
- 阿拉伯语优化:专门针对阿拉伯语的细微差别进行了微调。
- 资源高效:比竞争对手节省75%的内存消耗。
📊 性能基准
硬件性能(RTX 4090 24GB)
模型 |
内存使用 |
响应时间 |
Mizan-Rerank-v1 |
1 GB |
0.1秒 |
bg-rerank-v2-m3 |
4 GB |
0.3秒 |
jina-reranker-v2-base-multilingual |
2.5 GB |
0.2秒 |
MIRACL数据集结果(ndcg@10)
模型 |
得分 |
Mizan-Rerank-v1 |
0.8865 |
bge-reranker-v2-m3 |
0.8863 |
jina-reranker-v2-base-multilingual |
0.8481 |
Namaa-ARA-Reranker-V1 |
0.7941 |
Namaa-Reranker-v1 |
0.7176 |
ms-marco-MiniLM-L12-v2 |
0.1750 |
重排序和三元组数据集(ndcg@10)
模型 |
重排序数据集 |
三元组数据集 |
Mizan-Rerank-v1 |
1.0000 |
1.0000 |
bge-reranker-v2-m3 |
1.0000 |
0.9998 |
jina-reranker-v2-base-multilingual |
1.0000 |
1.0000 |
Namaa-ARA-Reranker-V1 |
1.0000 |
0.9989 |
Namaa-Reranker-v1 |
1.0000 |
0.9994 |
ms-marco-MiniLM-L12-v2 |
0.8906 |
0.9087 |
🔧 技术细节
Mizan-Rerank-v1在来自以下来源的7.41159981亿个标记的多样化语料库上进行了训练:
- 真实的阿拉伯语开源数据集
- 手动制作和处理的文本
- 专门生成的合成数据
这种全面的训练方法使模型能够深入理解阿拉伯语的语言环境。
🛠️ 工作原理
- 接收查询:模型接收用户查询和候选文本。
- 内容分析:分析查询与每个文本之间的语义关系。
- 相关性评分:为每个文本分配相关性得分。
- 重排序:按相关性得分降序对结果进行排序。
💻 使用示例
基础用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("ALJIACHI/Mizan-Rerank-v1")
tokenizer = AutoTokenizer.from_pretrained("ALJIACHI/Mizan-Rerank-v1")
def get_relevance_score(query, passage):
inputs = tokenizer(query, passage, return_tensors="pt", padding=True, truncation=True, max_length=8192)
outputs = model(**inputs)
return outputs.logits.item()
query = "ما هو تفسير الآية وجعلنا من الماء كل شيء حي"
passages = [
"تعني الآية أن الماء هو عنصر أساسي في حياة جميع الكائنات الحية، وهو ضروري لاستمرار الحياة.",
"تم اكتشاف كواكب خارج المجموعة الشمسية تحتوي على مياه متجمدة.",
"تحدث القرآن الكريم عن البرق والرعد في عدة مواضع مختلفة."
]
scores = [(passage, get_relevance_score(query, passage)) for passage in passages]
reranked_passages = sorted(scores, key=lambda x: x[1], reverse=True)
for passage, score in reranked_passages:
print(f"得分: {score:.4f} | 段落: {passage}")
📚 详细文档
实际示例
示例1
问题:2024年新的税收法律是什么?
文本 |
得分 |
官方报纸发布了2024年的新法律,规定对大公司的税收增加5% |
0.9989 |
税收是国家收入的重要来源,其比例因国家而异。 |
0.0001 |
2024年政府启动了一个新的可再生能源项目。 |
0.0001 |
示例2
问题:“我们从水中创造了一切有生命的东西”这句经文的解释是什么?
文本 |
得分 |
这句经文意味着水是所有生物生存的基本元素,对生命的延续至关重要。 |
0.9996 |
已发现太阳系外的行星含有冰冻水。 |
0.0000 |
古兰经在多个不同的地方提到了闪电和雷声。 |
0.0000 |
示例3
问题:维生素D有什么好处?
文本 |
得分 |
维生素D有助于增强骨骼健康和免疫系统,在钙的吸收中也起着重要作用。 |
0.9991 |
维生素D在一些食品工业中用作防腐剂。 |
0.9941 |
可以通过晒太阳或服用营养补充剂来获取维生素D。 |
0.9938 |
应用场景
Mizan-Rerank-v1为阿拉伯语自然语言处理应用开辟了新的前景:
- 专业阿拉伯语搜索引擎
- 存档系统和数字图书馆
- 对话式人工智能应用
- 电子学习平台
- 信息检索系统
📖 引用
如果您在研究中使用了Mizan-Rerank-v1,请引用以下内容:
@software{Mizan_Rerank_v1_2025,
author = {Ali Aljiachi},
title = {Mizan-Rerank-v1: A Revolutionary Arabic Text Reranking Model},
year = {2025},
publisher = {Hugging Face},
url = {https://huggingface.co/Aljiachi/Mizan-Rerank-v1}
}
@misc{modernbert,
title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference},
author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
year={2024},
eprint={2412.13663},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13663},
}
📄 许可证
我们根据Apache 2.0许可证发布Mizan-Rerank模型的权重。