AraEuroBert-2.1Bオープンソースモデル - 長文入力に対応したアラビア語意味埋め込みツール

ホーム

Araeurobert 2.1B

Omartificial-Intelligence-Spaceによって開発

EuroBERT-2.1Bをファインチューニングしたアラビア語意味埋め込みモデルで、2304次元の密ベクトル空間と最大8192トークンの入力をサポートします。

テキスト埋め込み

Safetensors

アラビア語オープンソースライセンス:MIT #アラビア語意味埋め込み #2304次元高次元ベクトル #8192長文対応

ダウンロード数 45

リリース時間 : 3/20/2025

モデル概要

アラビア語に最適化された意味テキスト埋め込みモデルで、意味類似度計算、意味検索、テキスト分類など様々なNLPタスクに適しています。

モデル特徴

高次元意味埋め込み

2304次元の密ベクトル空間をサポートし、豊富な意味情報を捉えることが可能

長文対応

最大8192トークンの入力をサポートし、長文処理に適している

ネスト型次元選択

2304、1152、960、580の4種類の次元選択をサポートし、性能と計算効率のバランスを取る

アラビア語最適化

アラビア語に特化して最適化されており、STS17ベンチマークで79点を獲得

モデル能力

意味テキスト類似度計算

意味検索

言い換えマイニング

テキスト分類

クラスタリング分析

使用事例

情報検索

アラビア語文書類似度検索

アラビア語文書コレクションから意味的に類似した文書を検索

高精度な意味マッチング

コンテンツ分析

アラビア語テキストクラスタリング

アラビア語ニュースやソーシャルメディアコンテンツを主題ごとにクラスタリング

効果的な主題識別とグループ化

🚀 Ara-EuroBERT: 大規模なアラビア語セマンティックテキスト埋め込み

Ara-EuroBERT-2.1B は、EuroBERT/EuroBERT-2.1B から微調整された sentence-transformers モデルで、アラビア語のセマンティック埋め込みに特化して最適化されています。

このモデルは、文章や段落を 2304次元の密ベクトル空間にマッピングし、単一の入力シーケンスで 最大8,192トークン をサポートします。

このモデルは、以下の次元の マトリョーシカ（ネスト）埋め込み をサポートしています。

全次元: 2304
縮小次元: 1151, 960, 580

パフォーマンスと計算効率のトレードオフを考慮して、特定の要件に基づいて埋め込み次元を選択することができます。

このモデルは、以下の用途に適しています。

セマンティックテキスト類似度
セマンティック検索
言い換えマイニング
テキスト分類
クラスタリング
その他のアラビア語の自然言語処理タスク

ベースモデルの詳細情報は、EuroBERT/EuroBERT-2.1B で確認できます。

✨ 主な機能

🧠 モデル詳細とベンチマーク性能

image/png

🔬 ベンチマークのハイライト

STS17ベンチマーク: AraEuroBERT-2.1Bは 79 点を達成し、標準のEuroBERT-2.1B（12 点）を大きく上回っています。
STS22.v2ベンチマーク: 55 点を獲得し、はるかに小さく効率的なモデルと競争力を持っています。

🧪 メトリクス

セマンティック類似度

データセット: sts-dev-2304, sts-dev-1152, sts-dev-960, sts-dev-580
評価には EmbeddingSimilarityEvaluator を使用

メトリクス	sts-dev-2304	sts-dev-1152	sts-dev-960	sts-dev-580
Pearson (コサイン)	0.7268	0.7267	0.7263	0.7246
Spearman (コサイン)	0.7298	0.7299	0.7297	0.7286

📦 モデルの説明

属性	詳細
モデルタイプ	Sentence Transformer
ベースモデル	EuroBERT/EuroBERT-2.1B
最大シーケンス長	8192トークン
出力次元数	2304次元（ネスト次元: 2304, 1152, 960, 580をサポート）
類似度関数	コサイン類似度
言語	アラビア語

🧬 完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: EuroBertModel 
  (1): Pooling({
        'word_embedding_dimension': 2304,
        'pooling_mode_cls_token': False,
        'pooling_mode_mean_tokens': True,
        'pooling_mode_max_tokens': False,
        'include_prompt': True
  })
)

📦 インストール

まず、Sentence Transformersライブラリをインストールします。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer

# 🤗 Hubからダウンロード
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-2.1B")

# 推論を実行
sentences = [
    'لاعبة كرة ناعمة ترمي الكرة إلى زميلتها في الفريق',
    'شخصان يلعبان كرة البيسبول',
    'لاعبين لكرة البيسبول يجلسان على مقعد',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1152]

# 埋め込みの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

引用

このモデルを研究で使用する場合は、以下の文献を引用してください。

@misc{boizard2025eurobertscalingmultilingualencoders,
      title={EuroBERT: Scaling Multilingual Encoders for European Languages}, 
      author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
      year={2025},
      eprint={2503.05500},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.05500}, 
}

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}