🚀 Ara-EuroBERT: アラビア語の意味的テキスト埋め込み
Ara-EuroBERT-610M は、EuroBERT/EuroBERT-610m からファインチューニングされた sentence-transformers モデルで、アラビア語の意味的テキスト埋め込みに特化して最適化されています。
このモデルは、文章や段落を 1152次元の密ベクトル空間 にマッピングし、最大シーケンス長: 8,192トークン をサポートします。
意味的テキスト類似度、意味的検索、言い換えマイニング、テキスト分類、クラスタリングなどに使用できます。
ベースモデルの詳細については、https://huggingface.co/EuroBERT/EuroBERT-610m を参照してください。
✨ 主要特性
- タグ: sentence-transformers、sentence-similarity、feature-extraction、generated_from_trainer、Arabic、EuroBert、Semantic
- パイプラインタグ: feature-extraction
- ライブラリ名: sentence-transformers
- 評価指標: pearson_cosine、spearman_cosine
📦 インストール
まず、Sentence Transformers ライブラリをインストールします。
pip install -U sentence-transformers
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-610M")
sentences = [
'لاعبة كرة ناعمة ترمي الكرة إلى زميلتها في الفريق',
'شخصان يلعبان كرة البيسبول',
'لاعبين لكرة البيسبول يجلسان على مقعد',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
📚 ドキュメント
モデルの詳細とベンチマーク性能

上記のベンチマーク結果は、AraEuroBERTモデルが標準のEuroBERTモデルに比べて大幅な性能向上を示しています。
- STS17ベンチマーク: AraEuroBERT-610Mは83点を達成し、標準のEuroBERT-610M (14点) やさらに大きなEuroBERT-2.1B (12点) を大きく上回っています。
- STS22.v2ベンチマーク: AraEuroBERT-210Mは61点を獲得し、より大きなAraEuroBERT-610M (53点) やすべての標準EuroBERTバリアントを上回っています。
これらの結果は、アラビア語のテキスト埋め込みに特化したファインチューニングの有効性を示しており、2.1億パラメータの小さなモデルでもアラビア語の意味的タスクで優れた性能を発揮しています。
評価指標
意味的類似度
評価指標 |
sts-dev-1152 |
sts-dev-960 |
sts-dev-768 |
sts-dev-512 |
pearson_cosine |
0.8264 |
0.8259 |
0.8244 |
0.8238 |
spearman_cosine |
0.8307 |
0.8302 |
0.8293 |
0.8293 |
モデルの説明
属性 |
詳情 |
モデルタイプ |
Sentence Transformer |
ベースモデル |
EuroBERT/EuroBERT-610m |
最大シーケンス長 |
8192トークン |
出力次元数 |
1152次元 (ネストされた次元: 1152、960、768、512をサポート) |
類似度関数 |
コサイン類似度 |
学習データセット |
アラビア語のテキストトリプレットを含む228万件の学習サンプル |
言語 |
アラビア語 |
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: EuroBertModel
(1): Pooling({'word_embedding_dimension': 1152, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
ネストされた埋め込み
このモデルは、以下の次元のマトリョーシカ (ネスト) 埋め込みをサポートしています。
- 完全次元: 1152
- 縮小次元: 960、768、512
パフォーマンスと計算効率のトレードオフを考慮して、特定の要件に基づいて埋め込み次元を選択できます。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
引用
このモデルを研究で使用する場合は、以下の文献を引用してください。
@misc{boizard2025eurobertscalingmultilingualencoders,
title={EuroBERT: Scaling Multilingual Encoders for European Languages},
author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
year={2025},
eprint={2503.05500},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.05500},
}
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}