🚀 Ara-EuroBERT: アラビア語最適化済みSentence Transformer
Ara-EuroBERTは、EuroBERT/EuroBERT-210m からファインチューニングされた sentence-transformers モデルで、アラビア語の意味的なテキスト埋め込みに特化して最適化されています。
このモデルは、文章や段落を 768次元の密ベクトル空間 にマッピングし、最大シーケンス長は8,192トークン です。
論文:
ベースモデルの詳細情報は、https://huggingface.co/EuroBERT/EuroBERT-210m で確認できます。

私たちがファインチューニングしたモデルは、ベースモデルに比べて著しい改善を示しています。STS17では73.5%の相対的な改善、STS22.v2では21.6%の相対的な改善を達成しています。
✨ 主な機能
このモデルは、様々なアラビア語の自然言語処理タスクで優れた性能を発揮します。
- 意味的なテキストの類似度
- 意味的な検索と情報検索
- 文書のクラスタリングと分類
- 質問応答
- 言い換え検出
- ゼロショット分類
📦 インストール
pip install -U sentence-transformers
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-210M")
sentences = [
'التقدم العلمي في مجال الذكاء الاصطناعي يتسارع بشكل ملحوظ في السنوات الأخيرة',
'تطوير نماذج لغوية متقدمة يساهم في تحسين فهم اللغة العربية آليًا',
'أصبحت تقنيات معالجة اللغات الطبيعية جزءًا أساسيًا من التطبيقات الحديثة',
'يعاني الشرق الأوسط من تحديات مناخية متزايدة تهدد الأمن المائي والغذائي',
'تراث الأدب العربي غني بالقصائد والروايات التي تعكس تاريخ وثقافة المنطقة',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
from sentence_transformers import util
similarities = util.cos_sim(embeddings, embeddings)
print(similarities)
Matryoshka埋め込みの使用
embeddings_768 = model.encode(sentences)
embeddings_256 = model.encode(sentences, truncate_dim=256)
embeddings_64 = model.encode(sentences, truncate_dim=64)
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
モデルタイプ |
Matryoshka埋め込みを持つSentence Transformer |
ベースモデル |
EuroBERT/EuroBERT-210m |
最大シーケンス長 |
8,192トークン |
出力次元数 |
[768, 512, 256, 128, 64] 次元のMatryoshka埋め込み |
類似度関数 |
コサイン類似度 |
言語 |
アラビア語用に最適化 |
ライセンス |
EuroBERTと同じ (MIT) |
Matryoshka埋め込み
このモデルは、Matryoshka表現学習で訓練されており、再訓練することなく柔軟な埋め込み次元を可能にします。効率化のために小さい次元 (64, 128, 256, 512) を使用することも、最大の性能を得るために768次元を使用することもできます。モデルは、縮小された次元でも強力な性能を維持します。
次元 |
Spearman相関 (STS Dev) |
768 |
0.8101 |
512 |
0.8088 |
256 |
0.8081 |
128 |
0.8055 |
64 |
0.7976 |
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: EuroBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
訓練方法
- 損失関数: MatryoshkaLossとMultipleNegativesRankingLoss
- Matryoshka次元: [768, 512, 256, 128, 64]
- バッチサイズ: 32
- エポック数: 1 (早期終了あり)
- オプティマイザ: AdamW
- 学習率: 5e-05 (線形スケジューラーと10%のウォームアップ)
- ハードウェア: 混合精度 (fp16) を使用した複数のNVIDIA GPU
🔧 技術詳細
EuroBERTは、ヨーロッパおよび世界的に広く話されている言語用に特別に設計された新しい多言語エンコーダモデルのファミリーです。従来の多言語エンコーダに比べていくつかの利点を提供します。
- 広範な多言語カバレッジ: 15の言語にわたる5兆トークンのデータセットで訓練
- 高度なアーキテクチャ: グループ化されたクエリアテンション、回転位置埋め込み、およびRMS正規化を使用
- 長いコンテキストのサポート: 最大8,192トークンをネイティブに処理
- 専門知識: 数学やプログラミング言語のデータを含み、推論能力を向上
📄 ライセンス
このモデルのライセンスは、EuroBERTと同じ (MIT) です。
📚 引用
このモデルを研究で使用する場合は、次の文献を引用してください。
@misc{boizard2025eurobertscalingmultilingualencoders,
title={EuroBERT: Scaling Multilingual Encoders for European Languages},
author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
year={2025},
eprint={2503.05500},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.05500},
}
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
⚠️ 重要提示
- このモデルは主にアラビア語のテキスト用に最適化されており、他の言語では最適な性能を発揮しない可能性があります。
- 訓練データに十分に表現されていない専門分野では、性能が異なる場合があります。
- 短いテキスト (<5語) の場合は、より良い表現を得るためにコンテキストを追加することを検討してください。
- 非常に長い文書の場合は、エンコードする前に意味のあるチャンクに分割することを検討してください。