🚀 SentenceTransformer based on intfloat/multilingual-e5-small
このモデルは、sentence-transformers を使用して、intfloat/multilingual-e5-small を Omartificial-Intelligence-Space/arabic-n_li-triplet データセットでファインチューニングしたものです。文章や段落を384次元の密ベクトル空間にマッピングし、意味的な文章の類似度、意味的な検索、言い換えのマイニング、テキスト分類、クラスタリングなどに使用できます。
✨ 主な機能
- 文章や段落を384次元の密ベクトル空間にマッピングすることができます。
- 意味的な文章の類似度、意味的な検索、言い換えのマイニング、テキスト分類、クラスタリングなどのタスクに使用できます。
📦 インストール
まず、Sentence Transformers ライブラリをインストールします。
pip install -U sentence-transformers
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Omartificial-Intelligence-Space/E5-Matro")
sentences = [
'يجلس شاب ذو شعر أشقر على الحائط يقرأ جريدة بينما تمر امرأة وفتاة شابة.',
'ذكر شاب ينظر إلى جريدة بينما تمر إمرأتان بجانبه',
'الشاب نائم بينما الأم تقود ابنتها إلى الحديقة',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
📚 ドキュメント
モデルの詳細
モデルの説明
属性 |
详情 |
モデルタイプ |
Sentence Transformer |
ベースモデル |
intfloat/multilingual-e5-small |
最大シーケンス長 |
512トークン |
出力次元数 |
384トークン |
類似度関数 |
コサイン類似度 |
学習データセット |
Omartificial-Intelligence-Space/arabic-n_li-triplet |
モデルのソース
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
評価
意味的な類似度
データセット: sts-test-384
EmbeddingSimilarityEvaluator
を使用して評価しました。
メトリック |
値 |
pearson_cosine |
0.7883 |
spearman_cosine |
0.7972 |
pearson_manhattan |
0.7846 |
spearman_manhattan |
0.794 |
pearson_euclidean |
0.7883 |
spearman_euclidean |
0.7972 |
pearson_dot |
0.7883 |
spearman_dot |
0.7972 |
pearson_max |
0.7883 |
spearman_max |
0.7972 |
データセット: sts-test-256
EmbeddingSimilarityEvaluator
を使用して評価しました。
メトリック |
値 |
pearson_cosine |
0.7852 |
spearman_cosine |
0.7968 |
pearson_manhattan |
0.7853 |
spearman_manhattan |
0.7936 |
pearson_euclidean |
0.7882 |
spearman_euclidean |
0.7963 |
pearson_dot |
0.7786 |
spearman_dot |
0.7868 |
pearson_max |
0.7882 |
spearman_max |
0.7968 |
データセット: sts-test-128
EmbeddingSimilarityEvaluator
を使用して評価しました。
メトリック |
値 |
pearson_cosine |
0.7755 |
spearman_cosine |
0.7933 |
pearson_manhattan |
0.7833 |
spearman_manhattan |
0.7908 |
pearson_euclidean |
0.7868 |
spearman_euclidean |
0.7936 |
pearson_dot |
0.7317 |
spearman_dot |
0.7336 |
pearson_max |
0.7868 |
spearman_max |
0.7936 |
データセット: sts-test-64
EmbeddingSimilarityEvaluator
を使用して評価しました。
メトリック |
値 |
pearson_cosine |
0.7625 |
spearman_cosine |
0.7837 |
pearson_manhattan |
0.7753 |
spearman_manhattan |
0.7791 |
pearson_euclidean |
0.778 |
spearman_euclidean |
0.7816 |
pearson_dot |
0.6685 |
spearman_dot |
0.6621 |
pearson_max |
0.778 |
spearman_max |
0.7837 |
学習の詳細
学習データセット
Omartificial-Intelligence-Space/arabic-n_li-triplet
- データセット: Omartificial-Intelligence-Space/arabic-n_li-triplet
- サイズ: 557,850個の学習サンプル
- 列:
anchor
、positive
、negative
- 最初の1000サンプルに基づく概算統計:
|
anchor |
positive |
negative |
タイプ |
文字列 |
文字列 |
文字列 |
詳細 |
- 最小: 5トークン
- 平均: 10.33トークン
- 最大: 52トークン
|
- 最小: 5トークン
- 平均: 13.21トークン
- 最大: 49トークン
|
- 最小: 5トークン
- 平均: 15.32トークン
- 最大: 53トークン
|
- サンプル:
anchor |
positive |
negative |
شخص على حصان يقفز فوق طائرة معطلة |
شخص في الهواء الطلق، على حصان. |
شخص في مطعم، يطلب عجة. |
أطفال يبتسمون و يلوحون للكاميرا |
هناك أطفال حاضرون |
الاطفال يتجهمون |