Mizan-Rerank-v1開源模型 - 高效準確對阿拉伯語長文本進行重排序

首頁

Mizan Rerank V1

由ALJIACHI開發

一款革命性的開源模型，能以卓越的效率和準確性對阿拉伯語長文本進行重排序。

文本嵌入

Safetensors

支持多種語言開源協議:Apache-2.0 #阿拉伯語重排序 #長文本處理 #高效推理

下載量 167

發布時間 : 3/31/2025

模型概述

基於Transformer架構的領先開源模型，專為阿拉伯語文本搜索結果重排序而設計。在性能和效率之間實現了完美平衡。

模型特點

輕量高效

僅1.49億參數，遠低於競品的2.78-5.68億參數

長文本處理

通過滑動窗口技術支持長達8192個標記的文本

高速推理

比同類模型快3倍

阿拉伯語優化

專門針對阿拉伯語語言特點微調

資源高效

內存消耗比競品少75%

模型能力

阿拉伯語文本重排序

長文本處理

高效推理

使用案例

信息檢索

阿拉伯語搜索引擎

提升阿拉伯語搜索結果的排序質量

在MIRACL數據集上ndcg@10得分0.8865

數字圖書館

優化阿拉伯語文檔的檢索結果排序

在重排序數據集上ndcg@10得分1.0000

教育技術

電子學習平臺

為阿拉伯語學習資源提供精準排序

🚀 Mizan-Rerank-v1

Mizan-Rerank-v1是一款革命性的開源模型，專為阿拉伯語長文本重排序而設計，具備卓越的效率和準確性，能有效提升阿拉伯語搜索結果的質量。

🚀 快速開始

Mizan-Rerank-v1是基於Transformer架構的領先開源模型，專為阿拉伯語文本的搜索結果重排序而設計。它僅擁有1.49億個參數，在性能和效率之間實現了完美平衡，在使用顯著更少資源的情況下，表現優於更大的模型。

✨ 主要特性

輕量級且高效：僅1.49億個參數，而競爭對手的參數數量在2.78 - 5.68億之間。
長文本處理：使用滑動窗口技術，可處理多達8192個標記。
高速推理：比同類模型快3倍。
阿拉伯語優化：專門針對阿拉伯語的細微差別進行了微調。
資源高效：比競爭對手節省75%的內存消耗。

📊 性能基準

硬件性能（RTX 4090 24GB）

模型	內存使用	響應時間
Mizan-Rerank-v1	1 GB	0.1秒
bg-rerank-v2-m3	4 GB	0.3秒
jina-reranker-v2-base-multilingual	2.5 GB	0.2秒

MIRACL數據集結果（ndcg@10）

模型	得分
Mizan-Rerank-v1	0.8865
bge-reranker-v2-m3	0.8863
jina-reranker-v2-base-multilingual	0.8481
Namaa-ARA-Reranker-V1	0.7941
Namaa-Reranker-v1	0.7176
ms-marco-MiniLM-L12-v2	0.1750

重排序和三元組數據集（ndcg@10）

模型	重排序數據集	三元組數據集
Mizan-Rerank-v1	1.0000	1.0000
bge-reranker-v2-m3	1.0000	0.9998
jina-reranker-v2-base-multilingual	1.0000	1.0000
Namaa-ARA-Reranker-V1	1.0000	0.9989
Namaa-Reranker-v1	1.0000	0.9994
ms-marco-MiniLM-L12-v2	0.8906	0.9087

🔧 技術細節

Mizan-Rerank-v1在來自以下來源的7.41159981億個標記的多樣化語料庫上進行了訓練：

真實的阿拉伯語開源數據集
手動製作和處理的文本
專門生成的合成數據

這種全面的訓練方法使模型能夠深入理解阿拉伯語的語言環境。

🛠️ 工作原理

接收查詢：模型接收用戶查詢和候選文本。
內容分析：分析查詢與每個文本之間的語義關係。
相關性評分：為每個文本分配相關性得分。
重排序：按相關性得分降序對結果進行排序。

💻 使用示例

基礎用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 加載模型和分詞器
model = AutoModelForSequenceClassification.from_pretrained("ALJIACHI/Mizan-Rerank-v1")
tokenizer = AutoTokenizer.from_pretrained("ALJIACHI/Mizan-Rerank-v1")

# 計算相關性得分的函數
def get_relevance_score(query, passage):
    inputs = tokenizer(query, passage, return_tensors="pt", padding=True, truncation=True, max_length=8192)
    outputs = model(**inputs)
    return outputs.logits.item()

# 示例用法
query = "ما هو تفسير الآية وجعلنا من الماء كل شيء حي"
passages = [
    "تعني الآية أن الماء هو عنصر أساسي في حياة جميع الكائنات الحية، وهو ضروري لاستمرار الحياة.",
    "تم اكتشاف كواكب خارج المجموعة الشمسية تحتوي على مياه متجمدة.",
    "تحدث القرآن الكريم عن البرق والرعد في عدة مواضع مختلفة."
]

# 獲取每個段落的得分
scores = [(passage, get_relevance_score(query, passage)) for passage in passages]

# 對段落進行重排序
reranked_passages = sorted(scores, key=lambda x: x[1], reverse=True)

# 打印結果
for passage, score in reranked_passages:
    print(f"得分: {score:.4f} | 段落: {passage}")

📚 詳細文檔

實際示例

示例1

問題：2024年新的稅收法律是什麼？

文本	得分
官方報紙發佈了2024年的新法律，規定對大公司的稅收增加5%	0.9989
稅收是國家收入的重要來源，其比例因國家而異。	0.0001
2024年政府啟動了一個新的可再生能源項目。	0.0001

示例2

問題：“我們從水中創造了一切有生命的東西”這句經文的解釋是什麼？

文本	得分
這句經文意味著水是所有生物生存的基本元素，對生命的延續至關重要。	0.9996
已發現太陽系外的行星含有冰凍水。	0.0000
古蘭經在多個不同的地方提到了閃電和雷聲。	0.0000

示例3

問題：維生素D有什麼好處？

文本	得分
維生素D有助於增強骨骼健康和免疫系統，在鈣的吸收中也起著重要作用。	0.9991
維生素D在一些食品工業中用作防腐劑。	0.9941
可以通過曬太陽或服用營養補充劑來獲取維生素D。	0.9938

應用場景

Mizan-Rerank-v1為阿拉伯語自然語言處理應用開闢了新的前景：

專業阿拉伯語搜索引擎
存檔系統和數字圖書館
對話式人工智能應用
電子學習平臺
信息檢索系統

📖 引用

如果您在研究中使用了Mizan-Rerank-v1，請引用以下內容：

@software{Mizan_Rerank_v1_2025,
  author = {Ali Aljiachi},
  title = {Mizan-Rerank-v1: A Revolutionary Arabic Text Reranking Model},
  year = {2025},
  publisher = {Hugging Face},
  url = {https://huggingface.co/Aljiachi/Mizan-Rerank-v1}
}

@misc{modernbert,
      title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference}, 
      author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
      year={2024},
      eprint={2412.13663},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.13663}, 
}