🚀 AraModernBert-base-V1.0
AraModernBert是基于ModernBERT架构构建的先进阿拉伯语模型。该模型结合了最先进的Transformer设计创新,并在100GB阿拉伯语文本上进行了广泛训练,在阿拉伯语理解方面取得了重大进展。
🚀 快速开始
以下是使用Transformers库调用AraModernBert的示例代码:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModel.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
text = "مرحبا بكم في عالم الذكاء الاصطناعي"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
embeddings = outputs.last_hidden_state
掩码语言模型示例
from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch
tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModelForMaskedLM.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
text = "الذكاء الاصطناعي هو [MASK] المستقبل."
inputs = tokenizer(text, return_tensors="pt")
token_index = torch.where(inputs["input_ids"][0] == tokenizer.mask_token_id)[0]
outputs = model(**inputs)
predictions = outputs.logits
predicted_token_id = torch.argmax(predictions[0, token_index]).item()
predicted_token = tokenizer.decode(predicted_token_id)
print(predicted_token)
✨ 主要特性
- 先进架构:基于ModernBERT架构构建,结合了最先进的Transformer设计创新。
- 大规模训练:在100GB阿拉伯语文本上进行了广泛训练,提升了阿拉伯语理解能力。
- 定制分词器:构建了专门的分词器,词汇量为50,280个标记,优化了阿拉伯语处理。
- 长上下文处理:最大位置嵌入为8192,能够处理长文档。
📚 详细文档
模型描述
AraModernBert是基于ModernBERT架构的先进阿拉伯语模型,代表了阿拉伯语理解的重大进步。它结合了最先进的Transformer设计创新,并在100GB阿拉伯语文本上进行了广泛训练。
AraModernBert的开发过程如下:
- 定制分词器训练:构建了专门的分词器,针对阿拉伯语处理进行了优化,词汇量为50,280个标记。
- 跨标记化:使用跨标记化技术,为MLM(掩码语言模型)最佳初始化嵌入层(更多细节请参阅论文)。
- 大规模掩码语言模型训练:在100GB阿拉伯语文本上对模型进行了训练。
模型配置
{
"hidden_size": 768,
"intermediate_size": 1152,
"num_attention_heads": 12,
"num_hidden_layers": 22,
"max_position_embeddings": 8192,
"vocab_size": 50280,
"global_attn_every_n_layers": 3,
"local_attention": 128,
"global_rope_theta": 160000.0,
"local_rope_theta": 10000.0,
"architectures": ["ModernBertForMaskedLM"],
"model_type": "modernbert",
"cls_token_id": 3,
"mask_token_id": 6,
"pad_token_id": 5,
"sep_token_id": 4,
"unk_token_id": 2
}
预期用途与局限性
预期用途
AraModernBert可用于广泛的阿拉伯语自然语言处理任务,包括:
- 文本嵌入与表示
- 信息检索
- RAG(检索增强生成)
- 文档相似度
- 文本分类
- 情感分析
局限性和偏差
- 该模型针对现代标准阿拉伯语进行了优化,在方言阿拉伯语变体或古典阿拉伯语文本上的性能可能会有所不同。
- 性能可能因领域和专业术语而异。
- 用户应注意训练数据中可能存在的偏差。
评估结果

1. 语义文本相似度(STS)
我们在STS数据集上对模型进行了微调,以增强语义理解能力:
注意:针对STS优化的模型将作为单独的检查点尽快发布。
2. 文本分类
我们使用SANAD数据集在多类分类任务上对AraModernBert进行了微调。
总体指标:
- AraModernBert:
- 准确率:94.32%
- F1分数:94.31%
- 精确率:94.31%
- 召回率:94.32%
每类性能(AraModernBert):
类别 |
精确率 |
召回率 |
F1分数 |
支持度 |
0 |
92.13% |
92.43% |
92.28% |
1,849 |
1 |
93.63% |
93.70% |
93.67% |
3,937 |
2 |
90.70% |
90.70% |
90.70% |
2,075 |
3 |
96.30% |
93.81% |
95.04% |
776 |
4 |
96.09% |
95.84% |
95.96% |
1,898 |
5 |
89.24% |
87.99% |
88.61% |
641 |
6 |
98.55% |
99.37% |
98.96% |
3,005 |
3. 命名实体识别(NER)
该模型在阿拉伯语NER任务上取得了优异的性能:
- 准确率:90.39%
- 精确率:0.7357
- 召回率:0.7442
- F1分数:0.7399
模型架构
AraModernBert继承了ModernBERT的现代架构特性,并添加了跨标记化方法:
- 22个Transformer层,隐藏维度为768。
- 交替注意力机制,每3层进行一次全局注意力,局部注意力窗口为128个标记。
- 旋转位置嵌入(RoPE),全局注意力的theta值为160000.0,局部注意力的theta值为10000.0。
- 8192个标记的上下文窗口,能够处理更长的文档。
- 专门的词汇表,包含50,280个标记,针对阿拉伯语进行了优化。
技术规格
属性 |
详情 |
基础架构 |
ModernBERT |
参数数量 |
约1.49亿(基于配置) |
上下文长度 |
8192个标记 |
词汇量 |
50,280 |
隐藏大小 |
768 |
注意力头数量 |
12 |
隐藏层数量 |
22 |
中间大小 |
1152 |
引用
如果您在研究中使用了该模型,请引用:
@misc{AraModernBERT2025,
title={AraModernBERT: Advanced Arabic Language Model Through Trans-Tokenization and ModernBERT architecture},
author={NAMAA},
year={2025},
publisher={Hugging Face},
howpublished={\url{https://huggingface.co/NAMAA-Space/AraModernBert-Base-V1.0}},
note={Accessed: 2025-03-02}
}
致谢
该模型基于Answer.AI和LightOn开发的ModernBERT架构构建。我们感谢他们在仅编码器模型领域的贡献,并通过我们新颖的跨标记化方法将他们的工作扩展到阿拉伯语。
@misc{modernbert,
title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference},
author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
year={2024},
eprint={2412.13663},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13663},
}
@inproceedings{remy-delobelle2024transtokenization,
title={Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of {LLM}s for Low-Resource {NLP}},
author={Remy, Fran{\c{c}}ois and Delobelle, Pieter and Avetisyan, Hayastan and Khabibullina, Alfiya and de Lhoneux, Miryam and Demeester, Thomas},
booktitle={First Conference on Language Modeling},
year={2024},
url={https://openreview.net/forum?id=sBxvoDhvao}
}
📄 许可证
本模型采用Apache-2.0许可证。