🚀 Mizan-Rerank-v1
Mizan-Rerank-v1是一款革命性的開源模型,專為阿拉伯語長文本重排序而設計,具備卓越的效率和準確性,能有效提升阿拉伯語搜索結果的質量。

🚀 快速開始
Mizan-Rerank-v1是基於Transformer架構的領先開源模型,專為阿拉伯語文本的搜索結果重排序而設計。它僅擁有1.49億個參數,在性能和效率之間實現了完美平衡,在使用顯著更少資源的情況下,表現優於更大的模型。
✨ 主要特性
- 輕量級且高效:僅1.49億個參數,而競爭對手的參數數量在2.78 - 5.68億之間。
- 長文本處理:使用滑動窗口技術,可處理多達8192個標記。
- 高速推理:比同類模型快3倍。
- 阿拉伯語優化:專門針對阿拉伯語的細微差別進行了微調。
- 資源高效:比競爭對手節省75%的內存消耗。
📊 性能基準
硬件性能(RTX 4090 24GB)
模型 |
內存使用 |
響應時間 |
Mizan-Rerank-v1 |
1 GB |
0.1秒 |
bg-rerank-v2-m3 |
4 GB |
0.3秒 |
jina-reranker-v2-base-multilingual |
2.5 GB |
0.2秒 |
MIRACL數據集結果(ndcg@10)
模型 |
得分 |
Mizan-Rerank-v1 |
0.8865 |
bge-reranker-v2-m3 |
0.8863 |
jina-reranker-v2-base-multilingual |
0.8481 |
Namaa-ARA-Reranker-V1 |
0.7941 |
Namaa-Reranker-v1 |
0.7176 |
ms-marco-MiniLM-L12-v2 |
0.1750 |
重排序和三元組數據集(ndcg@10)
模型 |
重排序數據集 |
三元組數據集 |
Mizan-Rerank-v1 |
1.0000 |
1.0000 |
bge-reranker-v2-m3 |
1.0000 |
0.9998 |
jina-reranker-v2-base-multilingual |
1.0000 |
1.0000 |
Namaa-ARA-Reranker-V1 |
1.0000 |
0.9989 |
Namaa-Reranker-v1 |
1.0000 |
0.9994 |
ms-marco-MiniLM-L12-v2 |
0.8906 |
0.9087 |
🔧 技術細節
Mizan-Rerank-v1在來自以下來源的7.41159981億個標記的多樣化語料庫上進行了訓練:
- 真實的阿拉伯語開源數據集
- 手動製作和處理的文本
- 專門生成的合成數據
這種全面的訓練方法使模型能夠深入理解阿拉伯語的語言環境。
🛠️ 工作原理
- 接收查詢:模型接收用戶查詢和候選文本。
- 內容分析:分析查詢與每個文本之間的語義關係。
- 相關性評分:為每個文本分配相關性得分。
- 重排序:按相關性得分降序對結果進行排序。
💻 使用示例
基礎用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("ALJIACHI/Mizan-Rerank-v1")
tokenizer = AutoTokenizer.from_pretrained("ALJIACHI/Mizan-Rerank-v1")
def get_relevance_score(query, passage):
inputs = tokenizer(query, passage, return_tensors="pt", padding=True, truncation=True, max_length=8192)
outputs = model(**inputs)
return outputs.logits.item()
query = "ما هو تفسير الآية وجعلنا من الماء كل شيء حي"
passages = [
"تعني الآية أن الماء هو عنصر أساسي في حياة جميع الكائنات الحية، وهو ضروري لاستمرار الحياة.",
"تم اكتشاف كواكب خارج المجموعة الشمسية تحتوي على مياه متجمدة.",
"تحدث القرآن الكريم عن البرق والرعد في عدة مواضع مختلفة."
]
scores = [(passage, get_relevance_score(query, passage)) for passage in passages]
reranked_passages = sorted(scores, key=lambda x: x[1], reverse=True)
for passage, score in reranked_passages:
print(f"得分: {score:.4f} | 段落: {passage}")
📚 詳細文檔
實際示例
示例1
問題:2024年新的稅收法律是什麼?
文本 |
得分 |
官方報紙發佈了2024年的新法律,規定對大公司的稅收增加5% |
0.9989 |
稅收是國家收入的重要來源,其比例因國家而異。 |
0.0001 |
2024年政府啟動了一個新的可再生能源項目。 |
0.0001 |
示例2
問題:“我們從水中創造了一切有生命的東西”這句經文的解釋是什麼?
文本 |
得分 |
這句經文意味著水是所有生物生存的基本元素,對生命的延續至關重要。 |
0.9996 |
已發現太陽系外的行星含有冰凍水。 |
0.0000 |
古蘭經在多個不同的地方提到了閃電和雷聲。 |
0.0000 |
示例3
問題:維生素D有什麼好處?
文本 |
得分 |
維生素D有助於增強骨骼健康和免疫系統,在鈣的吸收中也起著重要作用。 |
0.9991 |
維生素D在一些食品工業中用作防腐劑。 |
0.9941 |
可以通過曬太陽或服用營養補充劑來獲取維生素D。 |
0.9938 |
應用場景
Mizan-Rerank-v1為阿拉伯語自然語言處理應用開闢了新的前景:
- 專業阿拉伯語搜索引擎
- 存檔系統和數字圖書館
- 對話式人工智能應用
- 電子學習平臺
- 信息檢索系統
📖 引用
如果您在研究中使用了Mizan-Rerank-v1,請引用以下內容:
@software{Mizan_Rerank_v1_2025,
author = {Ali Aljiachi},
title = {Mizan-Rerank-v1: A Revolutionary Arabic Text Reranking Model},
year = {2025},
publisher = {Hugging Face},
url = {https://huggingface.co/Aljiachi/Mizan-Rerank-v1}
}
@misc{modernbert,
title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference},
author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
year={2024},
eprint={2412.13663},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13663},
}
📄 許可證
我們根據Apache 2.0許可證發佈Mizan-Rerank模型的權重。