AraModernBert-Base-STSオープンソースアラビア語モデル - 簡単に意味類似度を計算し、テキスト埋め込みを生成

ホーム

Aramodernbert Base STS

NAMAA-Spaceによって開発

これはAraModernBert-Base-V1.0をファインチューニングしたアラビア語センテンストランスフォーマーモデルで、意味的類似性計算とテキスト埋め込み生成に優れています。

テキスト埋め込み

Safetensors

アラビア語オープンソースライセンス:Apache-2.0 #アラビア語意味的類似性 #768次元密ベクトル #MTEBベンチマーク最適化

ダウンロード数 118

リリース時間 : 3/9/2025

モデル概要

このモデルは768次元の密ベクトルを生成し、意味的類似性計算、検索、言い換えマイニング、テキストクラスタリング、分類などのタスクに適しており、特にアラビア語テキスト処理能力が最適化されています。

モデル特徴

強力なアラビア語埋め込み

アラビア語に特化して最適化された768次元密ベクトル表現

効率的な意味理解

マルチネガティブランキングロス訓練を採用し、意味的類似性計算精度を向上

マルチタスク適応

検索、クラスタリング、分類など様々なダウンストリームアプリケーションシーンをサポート

モデル能力

意味的類似性計算

テキスト埋め込み生成

アラビア語テキスト処理

クロスランゲージ意味マッチング

使用事例

情報検索

インテリジェント検索エンジン

キーワードではなく意味に基づくアラビア語検索エンジンの構築

検索結果の関連性と正確性の向上

対話システム

アラビア語チャットボット

対話システムの意味理解能力の強化

対話の一貫性と文脈理解の向上

ナレッジマネジメント

ドキュメントクラスタリング

アラビア語ドキュメントの意味的クラスタリング

関連ドキュメントコレクションの自動発見

🚀 NAMAA-Space/AraModernBert-Base-V1.0に基づくSentenceTransformer

このSentenceTransformerは、NAMAA-Space/AraModernBert-Base-V1.0 から微調整されたもので、多くのユースケースに役立つ強力なアラビア語埋め込みを提供します。

🔹 768次元の密ベクトル 🎯
🔹 得意な分野: 意味的類似性、検索、パラフレーズマイニング、クラスタリング、テキスト分類など！
🔹 性能を犠牲にすることなく、速度と効率を最適化

インテリジェントな検索エンジン、チャットボット、またはAI駆動の知識グラフを構築する場合でも、このモデルはアラビア語テキストの意味的な表現を正確かつ深く提供します。

試してみて、アラビア語の自然言語処理を次のレベルに引き上げましょう！ 🔥✨

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: ModernBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

🚀 クイックスタート

✨ 主な機能

768次元の密ベクトルを生成します。
意味的類似性、検索、パラフレーズマイニング、クラスタリング、テキスト分類などのタスクで優れた性能を発揮します。
性能を犠牲にすることなく、速度と効率を最適化しています。

📦 インストール

まず、Sentence Transformersライブラリをインストールします。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("NAMAA-Space/AraModernBert-Base-STS")
# Run inference
sentences = [
    'الذكاء الاصطناعي يغير طريقة تفاعلنا مع التكنولوجيا.',
    'التكنولوجيا تتطور بسرعة بفضل الذكاء الاصطناعي.',
    'الذكاء الاصطناعي يسهم في تطوير التطبيقات الذكية.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 ドキュメント

評価

メトリクス

意味的類似性

データセット: STS17 と STS22.v2
EmbeddingSimilarityEvaluator で評価

メトリクス	STS17	STS22.v2
pearson_cosine	0.8249	0.5259
spearman_cosine	0.831	0.6169

フレームワークのバージョン

Python: 3.10.12
Sentence Transformers: 3.4.1
Transformers: 4.49.0
PyTorch: 2.1.0+cu118
Accelerate: 1.4.0
Datasets: 2.21.0
Tokenizers: 0.21.0

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}