🚀 AraModernBert-base-V1.0
AraModernBertは、ModernBERTアーキテクチャに基づいて構築された高度なアラビア語言語モデルです。このモデルは、最先端のトランスフォーマー設計の革新と、100ギガバイトのアラビア語テキストでの大規模なトレーニングを組み合わせることで、アラビア語理解における大きな進歩を表しています。
🚀 クイックスタート
ここでは、Transformersライブラリを使用してAraModernBertを使う方法を説明します。
基本的な使用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModel.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
text = "مرحبا بكم في عالم الذكاء الاصطناعي"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
embeddings = outputs.last_hidden_state
高度な使用法
マスク付き言語モデリングの例
from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch
tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModelForMaskedLM.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
text = "الذكاء الاصطناعي هو [MASK] المستقبل."
inputs = tokenizer(text, return_tensors="pt")
token_index = torch.where(inputs["input_ids"][0] == tokenizer.mask_token_id)[0]
outputs = model(**inputs)
predictions = outputs.logits
predicted_token_id = torch.argmax(predictions[0, token_index]).item()
predicted_token = tokenizer.decode(predicted_token_id)
print(predicted_token)
✨ 主な機能
AraModernBertは、以下のような幅広いアラビア語NLPタスクに使用できます。
- テキスト埋め込みと表現
- 情報検索
- RAG(検索拡張生成)
- 文書類似度
- テキスト分類
- 感情分析
📦 インストール
このセクションではインストールに関する具体的なコマンドが提供されていないため、スキップします。
📚 ドキュメント
モデルの説明
AraModernBertは、以下のプロセスを通じて開発されました。
- カスタムトークナイザーのトレーニング:アラビア語処理に最適化された専用のトークナイザーを構築し、語彙サイズは50,280トークンとしました。
- トランストークナイゼーション:トランストークナイゼーション技術を使用して、MLMの埋め込み層を最適に初期化しました(詳細については、こちらの論文を参照)。
- 大規模なマスク付き言語モデリング:モデルは100ギガバイトのアラビア語テキストでトレーニングされました。
モデルの構成
{
"hidden_size": 768,
"intermediate_size": 1152,
"num_attention_heads": 12,
"num_hidden_layers": 22,
"max_position_embeddings": 8192,
"vocab_size": 50280,
"global_attn_every_n_layers": 3,
"local_attention": 128,
"global_rope_theta": 160000.0,
"local_rope_theta": 10000.0,
"architectures": ["ModernBertForMaskedLM"],
"model_type": "modernbert",
"cls_token_id": 3,
"mask_token_id": 6,
"pad_token_id": 5,
"sep_token_id": 4,
"unk_token_id": 2
}
想定される用途と制限
用途
AraModernBertは、以下のような幅広いアラビア語NLPタスクに使用できます。
- テキスト埋め込みと表現
- 情報検索
- RAG(検索拡張生成)
- 文書類似度
- テキスト分類
- 感情分析
制限とバイアス
- モデルは現代標準アラビア語に最適化されており、方言アラビア語のバリエーションや古典アラビア語のテキストでは性能が異なる場合があります。
- ドメインや専門用語によって性能が異なる場合があります。
- ユーザーはトレーニングデータに含まれる潜在的なバイアスに注意する必要があります。
評価結果

1. 意味的テキスト類似度(STS)
モデルをSTSデータセットでファインチューニングして、意味理解能力を向上させました。
注:STS最適化モデルは、近日中に別のチェックポイントとしてリリースされます。
2. テキスト分類
AraModernBertを、SANADデータセットを使用した多クラス分類タスクでファインチューニングしました。
全体的な指標
- AraModernBert
- 正解率:94.32%
- F1スコア:94.31%
- 精度:94.31%
- 再現率:94.32%
クラスごとの性能(AraModernBert)
クラス |
精度 |
再現率 |
F1スコア |
サポート |
0 |
92.13% |
92.43% |
92.28% |
1,849 |
1 |
93.63% |
93.70% |
93.67% |
3,937 |
2 |
90.70% |
90.70% |
90.70% |
2,075 |
3 |
96.30% |
93.81% |
95.04% |
776 |
4 |
96.09% |
95.84% |
95.96% |
1,898 |
5 |
89.24% |
87.99% |
88.61% |
641 |
6 |
98.55% |
99.37% |
98.96% |
3,005 |
3. 固有表現認識(NER)
モデルは、アラビア語のNERタスクで優れた性能を達成しました。
- 正解率:90.39%
- 精度:0.7357
- 再現率:0.7442
- F1:0.7399
🔧 技術詳細
モデルアーキテクチャ
AraModernBertは、ModernBERTから現代的なアーキテクチャ機能を継承し、トランストークナイゼーションアプローチを追加しています。
- 22層のトランスフォーマー層:768の隠れ次元
- 交互注意メカニズム:3層ごとにグローバル注意を使用し、ローカル注意ウィンドウは128トークン
- 回転位置埋め込み(RoPE):グローバル(160000.0)とローカル(10000.0)の注意に異なるtheta値を使用
- 8,192トークンのコンテキストウィンドウ:長い文書の処理に対応
- 専用語彙:アラビア語に最適化された50,280トークン
技術仕様
属性 |
詳情 |
モデルタイプ |
modernbert |
ベースアーキテクチャ |
ModernBERT |
パラメータ |
~149M(構成に基づく) |
コンテキスト長 |
8,192トークン |
語彙サイズ |
50,280 |
隠れサイズ |
768 |
注意ヘッド |
12 |
隠れ層 |
22 |
中間サイズ |
1152 |
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
📖 引用
このモデルを研究で使用する場合は、以下のように引用してください。
@misc{AraModernBERT2025,
title={AraModernBERT: Advanced Arabic Language Model Through Trans-Tokenization and ModernBERT architecture},
author={NAMAA},
year={2025},
publisher={Hugging Face},
howpublished={\url{https://huggingface.co/NAMAA-Space/AraModernBert-Base-V1.0}},
note={Accessed: 2025-03-02}
}
謝辞
このモデルは、Answer.AIとLightOnによって開発されたModernBERTアーキテクチャを基に構築されています。彼らがエンコーダー専用モデルの分野に貢献したことを認め、独自のトランストークン化アプローチを通じて彼らの仕事をアラビア語に拡張しています。
@misc{modernbert,
title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference},
author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
year={2024},
eprint={2412.13663},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13663},
}
@inproceedings{remy-delobelle2024transtokenization,
title={Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of {LLM}s for Low-Resource {NLP}},
author={Remy, Fran{\c{c}}ois and Delobelle, Pieter and Avetisyan, Hayastan and Khabibullina, Alfiya and de Lhoneux, Miryam and Demeester, Thomas},
booktitle={First Conference on Language Modeling},
year={2024},
url={https://openreview.net/forum?id=sBxvoDhvao}
}