🚀 AraModernBert-base-V1.0
AraModernBert是基於ModernBERT架構構建的先進阿拉伯語模型。該模型結合了最先進的Transformer設計創新,並在100GB阿拉伯語文本上進行了廣泛訓練,在阿拉伯語理解方面取得了重大進展。
🚀 快速開始
以下是使用Transformers庫調用AraModernBert的示例代碼:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModel.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
text = "مرحبا بكم في عالم الذكاء الاصطناعي"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
embeddings = outputs.last_hidden_state
掩碼語言模型示例
from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch
tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModelForMaskedLM.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
text = "الذكاء الاصطناعي هو [MASK] المستقبل."
inputs = tokenizer(text, return_tensors="pt")
token_index = torch.where(inputs["input_ids"][0] == tokenizer.mask_token_id)[0]
outputs = model(**inputs)
predictions = outputs.logits
predicted_token_id = torch.argmax(predictions[0, token_index]).item()
predicted_token = tokenizer.decode(predicted_token_id)
print(predicted_token)
✨ 主要特性
- 先進架構:基於ModernBERT架構構建,結合了最先進的Transformer設計創新。
- 大規模訓練:在100GB阿拉伯語文本上進行了廣泛訓練,提升了阿拉伯語理解能力。
- 定製分詞器:構建了專門的分詞器,詞彙量為50,280個標記,優化了阿拉伯語處理。
- 長上下文處理:最大位置嵌入為8192,能夠處理長文檔。
📚 詳細文檔
模型描述
AraModernBert是基於ModernBERT架構的先進阿拉伯語模型,代表了阿拉伯語理解的重大進步。它結合了最先進的Transformer設計創新,並在100GB阿拉伯語文本上進行了廣泛訓練。
AraModernBert的開發過程如下:
- 定製分詞器訓練:構建了專門的分詞器,針對阿拉伯語處理進行了優化,詞彙量為50,280個標記。
- 跨標記化:使用跨標記化技術,為MLM(掩碼語言模型)最佳初始化嵌入層(更多細節請參閱論文)。
- 大規模掩碼語言模型訓練:在100GB阿拉伯語文本上對模型進行了訓練。
模型配置
{
"hidden_size": 768,
"intermediate_size": 1152,
"num_attention_heads": 12,
"num_hidden_layers": 22,
"max_position_embeddings": 8192,
"vocab_size": 50280,
"global_attn_every_n_layers": 3,
"local_attention": 128,
"global_rope_theta": 160000.0,
"local_rope_theta": 10000.0,
"architectures": ["ModernBertForMaskedLM"],
"model_type": "modernbert",
"cls_token_id": 3,
"mask_token_id": 6,
"pad_token_id": 5,
"sep_token_id": 4,
"unk_token_id": 2
}
預期用途與侷限性
預期用途
AraModernBert可用於廣泛的阿拉伯語自然語言處理任務,包括:
- 文本嵌入與表示
- 信息檢索
- RAG(檢索增強生成)
- 文檔相似度
- 文本分類
- 情感分析
侷限性和偏差
- 該模型針對現代標準阿拉伯語進行了優化,在方言阿拉伯語變體或古典阿拉伯語文本上的性能可能會有所不同。
- 性能可能因領域和專業術語而異。
- 用戶應注意訓練數據中可能存在的偏差。
評估結果

1. 語義文本相似度(STS)
我們在STS數據集上對模型進行了微調,以增強語義理解能力:
注意:針對STS優化的模型將作為單獨的檢查點儘快發佈。
2. 文本分類
我們使用SANAD數據集在多類分類任務上對AraModernBert進行了微調。
總體指標:
- AraModernBert:
- 準確率:94.32%
- F1分數:94.31%
- 精確率:94.31%
- 召回率:94.32%
每類性能(AraModernBert):
類別 |
精確率 |
召回率 |
F1分數 |
支持度 |
0 |
92.13% |
92.43% |
92.28% |
1,849 |
1 |
93.63% |
93.70% |
93.67% |
3,937 |
2 |
90.70% |
90.70% |
90.70% |
2,075 |
3 |
96.30% |
93.81% |
95.04% |
776 |
4 |
96.09% |
95.84% |
95.96% |
1,898 |
5 |
89.24% |
87.99% |
88.61% |
641 |
6 |
98.55% |
99.37% |
98.96% |
3,005 |
3. 命名實體識別(NER)
該模型在阿拉伯語NER任務上取得了優異的性能:
- 準確率:90.39%
- 精確率:0.7357
- 召回率:0.7442
- F1分數:0.7399
模型架構
AraModernBert繼承了ModernBERT的現代架構特性,並添加了跨標記化方法:
- 22個Transformer層,隱藏維度為768。
- 交替注意力機制,每3層進行一次全局注意力,局部注意力窗口為128個標記。
- 旋轉位置嵌入(RoPE),全局注意力的theta值為160000.0,局部注意力的theta值為10000.0。
- 8192個標記的上下文窗口,能夠處理更長的文檔。
- 專門的詞彙表,包含50,280個標記,針對阿拉伯語進行了優化。
技術規格
屬性 |
詳情 |
基礎架構 |
ModernBERT |
參數數量 |
約1.49億(基於配置) |
上下文長度 |
8192個標記 |
詞彙量 |
50,280 |
隱藏大小 |
768 |
注意力頭數量 |
12 |
隱藏層數量 |
22 |
中間大小 |
1152 |
引用
如果您在研究中使用了該模型,請引用:
@misc{AraModernBERT2025,
title={AraModernBERT: Advanced Arabic Language Model Through Trans-Tokenization and ModernBERT architecture},
author={NAMAA},
year={2025},
publisher={Hugging Face},
howpublished={\url{https://huggingface.co/NAMAA-Space/AraModernBert-Base-V1.0}},
note={Accessed: 2025-03-02}
}
致謝
該模型基於Answer.AI和LightOn開發的ModernBERT架構構建。我們感謝他們在僅編碼器模型領域的貢獻,並通過我們新穎的跨標記化方法將他們的工作擴展到阿拉伯語。
@misc{modernbert,
title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference},
author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
year={2024},
eprint={2412.13663},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13663},
}
@inproceedings{remy-delobelle2024transtokenization,
title={Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of {LLM}s for Low-Resource {NLP}},
author={Remy, Fran{\c{c}}ois and Delobelle, Pieter and Avetisyan, Hayastan and Khabibullina, Alfiya and de Lhoneux, Miryam and Demeester, Thomas},
booktitle={First Conference on Language Modeling},
year={2024},
url={https://openreview.net/forum?id=sBxvoDhvao}
}
📄 許可證
本模型採用Apache-2.0許可證。