AraEuroBert - 210Mオープンソースモデル - セマンティック埋め込みによるアラビア語のセマンティックニーズに対応

ホーム

Araeurobert 210M

Omartificial-Intelligence-Spaceによって開発

EuroBERT-210mをファインチューニングしたアラビア語意味埋め込みモデルで、マトリョーシカ埋め込み技術をサポート

テキスト埋め込み

Safetensors

アラビア語オープンソースライセンス:MIT #アラビア語意味埋め込み #マトリョーシカ次元削減 #長文サポート(8k)

ダウンロード数 304

リリース時間 : 3/11/2025

モデル概要

アラビア語テキストに最適化された文変換モデルで、文を768次元ベクトル空間にマッピング可能。様々な埋め込み次元をサポートし、異なる効率要件に対応

モデル特徴

マトリョーシカ埋め込み技術

埋め込み次元(768/512/256/128/64)を柔軟に調整可能で、再トレーニング不要で性能と効率のバランスを取れる

長文サポート

最大シーケンス長8,192トークンで、長文書処理に適している

アラビア語最適化

アラビア語特性に特化して最適化されており、ベースモデルに比べSTSタスクで大幅な向上

マルチ損失関数トレーニング

MatryoshkaLossとMultipleNegativesRankingLossを組み合わせてトレーニング

モデル能力

意味的テキスト類似度計算

意味検索

情報検索

文書クラスタリング

質問応答システム

言い換え検出

ゼロショット分類

使用事例

情報検索

アラビア語検索エンジン

アラビア語コンテンツの意味検索エンジン構築に使用

検索結果の関連性と精度を向上

テキスト分析

文書類似度分析

アラビア語文書間の意味的類似度を分析

STS17タスクで73.5%の相対的向上

🚀 Ara-EuroBERT: アラビア語最適化済みSentence Transformer

Ara-EuroBERTは、EuroBERT/EuroBERT-210m からファインチューニングされた sentence-transformers モデルで、アラビア語の意味的なテキスト埋め込みに特化して最適化されています。

このモデルは、文章や段落を 768次元の密ベクトル空間 にマッピングし、最大シーケンス長は8,192トークン です。

論文:

ベースモデルの詳細情報は、https://huggingface.co/EuroBERT/EuroBERT-210m で確認できます。

image/png

私たちがファインチューニングしたモデルは、ベースモデルに比べて著しい改善を示しています。STS17では73.5%の相対的な改善、STS22.v2では21.6%の相対的な改善を達成しています。

✨ 主な機能

このモデルは、様々なアラビア語の自然言語処理タスクで優れた性能を発揮します。

意味的なテキストの類似度
意味的な検索と情報検索
文書のクラスタリングと分類
質問応答
言い換え検出
ゼロショット分類

📦 インストール

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer

# モデルのロード
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-210M")

# アラビア語の文章をエンコード
sentences = [
    'التقدم العلمي في مجال الذكاء الاصطناعي يتسارع بشكل ملحوظ في السنوات الأخيرة',
    'تطوير نماذج لغوية متقدمة يساهم في تحسين فهم اللغة العربية آليًا',
    'أصبحت تقنيات معالجة اللغات الطبيعية جزءًا أساسيًا من التطبيقات الحديثة',
    'يعاني الشرق الأوسط من تحديات مناخية متزايدة تهدد الأمن المائي والغذائي',
    'تراث الأدب العربي غني بالقصائد والروايات التي تعكس تاريخ وثقافة المنطقة',
]
embeddings = model.encode(sentences)
print(embeddings.shape)  # [3, 768]

# 類似度スコアを取得
from sentence_transformers import util
similarities = util.cos_sim(embeddings, embeddings)
print(similarities)

Matryoshka埋め込みの使用

# 異なる次元の埋め込みを取得
embeddings_768 = model.encode(sentences)  # デフォルト: 768次元
embeddings_256 = model.encode(sentences, truncate_dim=256)  # 256次元のみを使用
embeddings_64 = model.encode(sentences, truncate_dim=64)  # 64次元のみを使用

📚 ドキュメント

モデルの詳細

属性	詳情
モデルタイプ	Matryoshka埋め込みを持つSentence Transformer
ベースモデル	EuroBERT/EuroBERT-210m
最大シーケンス長	8,192トークン
出力次元数	[768, 512, 256, 128, 64] 次元のMatryoshka埋め込み
類似度関数	コサイン類似度
言語	アラビア語用に最適化
ライセンス	EuroBERTと同じ (MIT)

Matryoshka埋め込み

このモデルは、Matryoshka表現学習で訓練されており、再訓練することなく柔軟な埋め込み次元を可能にします。効率化のために小さい次元 (64, 128, 256, 512) を使用することも、最大の性能を得るために768次元を使用することもできます。モデルは、縮小された次元でも強力な性能を維持します。

次元	Spearman相関 (STS Dev)
768	0.8101
512	0.8088
256	0.8081
128	0.8055
64	0.7976

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: EuroBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

訓練方法

損失関数: MatryoshkaLossとMultipleNegativesRankingLoss
Matryoshka次元: [768, 512, 256, 128, 64]
バッチサイズ: 32
エポック数: 1 (早期終了あり)
オプティマイザ: AdamW
学習率: 5e-05 (線形スケジューラーと10%のウォームアップ)
ハードウェア: 混合精度 (fp16) を使用した複数のNVIDIA GPU

🔧 技術詳細

EuroBERTは、ヨーロッパおよび世界的に広く話されている言語用に特別に設計された新しい多言語エンコーダモデルのファミリーです。従来の多言語エンコーダに比べていくつかの利点を提供します。

広範な多言語カバレッジ: 15の言語にわたる5兆トークンのデータセットで訓練
高度なアーキテクチャ: グループ化されたクエリアテンション、回転位置埋め込み、およびRMS正規化を使用
長いコンテキストのサポート: 最大8,192トークンをネイティブに処理
専門知識: 数学やプログラミング言語のデータを含み、推論能力を向上

📄 ライセンス

このモデルのライセンスは、EuroBERTと同じ (MIT) です。

📚 引用

このモデルを研究で使用する場合は、次の文献を引用してください。

@misc{boizard2025eurobertscalingmultilingualencoders,
      title={EuroBERT: Scaling Multilingual Encoders for European Languages}, 
      author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
      year={2025},
      eprint={2503.05500},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.05500}, 
}

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}