🚀 Ara-EuroBERT: 大規模なアラビア語セマンティックテキスト埋め込み
Ara-EuroBERT-2.1B は、EuroBERT/EuroBERT-2.1B から微調整された sentence-transformers モデルで、アラビア語のセマンティック埋め込みに特化して最適化されています。
このモデルは、文章や段落を 2304次元の密ベクトル空間にマッピングし、単一の入力シーケンスで 最大8,192トークン をサポートします。
このモデルは、以下の次元の マトリョーシカ(ネスト)埋め込み をサポートしています。
- 全次元: 2304
- 縮小次元: 1151, 960, 580
パフォーマンスと計算効率のトレードオフを考慮して、特定の要件に基づいて埋め込み次元を選択することができます。
このモデルは、以下の用途に適しています。
- セマンティックテキスト類似度
- セマンティック検索
- 言い換えマイニング
- テキスト分類
- クラスタリング
- その他のアラビア語の自然言語処理タスク
ベースモデルの詳細情報は、EuroBERT/EuroBERT-2.1B で確認できます。
✨ 主な機能
🧠 モデル詳細とベンチマーク性能

🔬 ベンチマークのハイライト
- STS17ベンチマーク: AraEuroBERT-2.1Bは 79 点を達成し、標準のEuroBERT-2.1B(12 点)を大きく上回っています。
- STS22.v2ベンチマーク: 55 点を獲得し、はるかに小さく効率的なモデルと競争力を持っています。
🧪 メトリクス
セマンティック類似度
メトリクス |
sts-dev-2304 |
sts-dev-1152 |
sts-dev-960 |
sts-dev-580 |
Pearson (コサイン) |
0.7268 |
0.7267 |
0.7263 |
0.7246 |
Spearman (コサイン) |
0.7298 |
0.7299 |
0.7297 |
0.7286 |
📦 モデルの説明
属性 |
詳細 |
モデルタイプ |
Sentence Transformer |
ベースモデル |
EuroBERT/EuroBERT-2.1B |
最大シーケンス長 |
8192トークン |
出力次元数 |
2304次元(ネスト次元: 2304, 1152, 960, 580をサポート) |
類似度関数 |
コサイン類似度 |
言語 |
アラビア語 |
🧬 完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: EuroBertModel
(1): Pooling({
'word_embedding_dimension': 2304,
'pooling_mode_cls_token': False,
'pooling_mode_mean_tokens': True,
'pooling_mode_max_tokens': False,
'include_prompt': True
})
)
📦 インストール
まず、Sentence Transformersライブラリをインストールします。
pip install -U sentence-transformers
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-2.1B")
sentences = [
'لاعبة كرة ناعمة ترمي الكرة إلى زميلتها في الفريق',
'شخصان يلعبان كرة البيسبول',
'لاعبين لكرة البيسبول يجلسان على مقعد',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
引用
このモデルを研究で使用する場合は、以下の文献を引用してください。
@misc{boizard2025eurobertscalingmultilingualencoders,
title={EuroBERT: Scaling Multilingual Encoders for European Languages},
author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
year={2025},
eprint={2503.05500},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.05500},
}
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}