AraEuroBert - 610Mオープンソースモデル - 大きなシーケンス長をサポートするアラビア語の意味的テキスト埋め込み

ホーム

Araeurobert 610M

Omartificial-Intelligence-Spaceによって開発

EuroBERT-610mを微調整したアラビア語意味テキスト埋め込みモデルで、1152次元の密ベクトル空間と8192トークンの最大シーケンス長をサポートします。

テキスト埋め込み

Safetensors

アラビア語オープンソースライセンス:MIT #アラビア語意味埋め込み #長文処理(8k)#マトリョーシカ式ベクトル

ダウンロード数 160

リリース時間 : 3/19/2025

モデル概要

アラビア語に最適化された意味テキスト埋め込みモデルで、意味的類似性計算、意味検索、テキスト分類などのタスクに適しています。

モデル特徴

アラビア語最適化

アラビア語テキストに特化して微調整され、アラビア語意味タスクの性能を大幅に向上

長文サポート

最大8192トークンのシーケンス長をサポートし、長文処理に適しています

ネスト型埋め込み

1152/960/768/512次元のマトリョーシカ式埋め込みをサポートし、必要に応じて次元を調整可能

高性能

STS17とSTS22.v2ベンチマークテストで標準EuroBERTモデルを上回る性能

モデル能力

意味テキスト類似性計算

意味検索

言い換えマイニング

テキスト分類

テキストクラスタリング

使用事例

情報検索

アラビア語意味検索

アラビア語検索エンジンを構築し、クエリとドキュメントの意味的類似性を理解

検索結果の関連性を向上

テキスト分析

アラビア語テキスト分類

アラビア語ニュース、コメントなどを自動分類

従来の方法よりも高い精度

🚀 Ara-EuroBERT: アラビア語の意味的テキスト埋め込み

Ara-EuroBERT-610M は、EuroBERT/EuroBERT-610m からファインチューニングされた sentence-transformers モデルで、アラビア語の意味的テキスト埋め込みに特化して最適化されています。

このモデルは、文章や段落を 1152次元の密ベクトル空間 にマッピングし、最大シーケンス長: 8,192トークン をサポートします。

意味的テキスト類似度、意味的検索、言い換えマイニング、テキスト分類、クラスタリングなどに使用できます。

ベースモデルの詳細については、https://huggingface.co/EuroBERT/EuroBERT-610m を参照してください。

✨ 主要特性

タグ: sentence-transformers、sentence-similarity、feature-extraction、generated_from_trainer、Arabic、EuroBert、Semantic
パイプラインタグ: feature-extraction
ライブラリ名: sentence-transformers
評価指標: pearson_cosine、spearman_cosine

📦 インストール

まず、Sentence Transformers ライブラリをインストールします。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-610M")

# Run inference
sentences = [
    'لاعبة كرة ناعمة ترمي الكرة إلى زميلتها في الفريق',
    'شخصان يلعبان كرة البيسبول',
    'لاعبين لكرة البيسبول يجلسان على مقعد',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1152]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 ドキュメント

モデルの詳細とベンチマーク性能

ベンチマーク結果

上記のベンチマーク結果は、AraEuroBERTモデルが標準のEuroBERTモデルに比べて大幅な性能向上を示しています。

STS17ベンチマーク: AraEuroBERT-610Mは83点を達成し、標準のEuroBERT-610M (14点) やさらに大きなEuroBERT-2.1B (12点) を大きく上回っています。
STS22.v2ベンチマーク: AraEuroBERT-210Mは61点を獲得し、より大きなAraEuroBERT-610M (53点) やすべての標準EuroBERTバリアントを上回っています。

これらの結果は、アラビア語のテキスト埋め込みに特化したファインチューニングの有効性を示しており、2.1億パラメータの小さなモデルでもアラビア語の意味的タスクで優れた性能を発揮しています。

評価指標

意味的類似度

データセット: sts-dev-1152、sts-dev-960、sts-dev-768、sts-dev-512
評価方法: EmbeddingSimilarityEvaluator

評価指標	sts-dev-1152	sts-dev-960	sts-dev-768	sts-dev-512
pearson_cosine	0.8264	0.8259	0.8244	0.8238
spearman_cosine	0.8307	0.8302	0.8293	0.8293

モデルの説明

属性	詳情
モデルタイプ	Sentence Transformer
ベースモデル	EuroBERT/EuroBERT-610m
最大シーケンス長	8192トークン
出力次元数	1152次元 (ネストされた次元: 1152、960、768、512をサポート)
類似度関数	コサイン類似度
学習データセット	アラビア語のテキストトリプレットを含む228万件の学習サンプル
言語	アラビア語

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: EuroBertModel 
  (1): Pooling({'word_embedding_dimension': 1152, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

ネストされた埋め込み

このモデルは、以下の次元のマトリョーシカ (ネスト) 埋め込みをサポートしています。

完全次元: 1152
縮小次元: 960、768、512

パフォーマンスと計算効率のトレードオフを考慮して、特定の要件に基づいて埋め込み次元を選択できます。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

引用

このモデルを研究で使用する場合は、以下の文献を引用してください。

@misc{boizard2025eurobertscalingmultilingualencoders,
      title={EuroBERT: Scaling Multilingual Encoders for European Languages}, 
      author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
      year={2025},
      eprint={2503.05500},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.05500}, 
}

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}