E5 Large Finetune Word
これはmultilingual-e5-largeをファインチューニングした文変換モデルで、テキストを1024次元ベクトル空間にマッピングし、意味的類似度計算やテキスト検索などのタスクに使用されます。
ダウンロード数 259
リリース時間 : 5/9/2025
モデル概要
このモデルは文や段落の意味表現を処理するために特別に設計されており、多言語テキストの埋め込み表現と類似度計算をサポートし、情報検索、テキスト分類、クラスタリングなどのシナリオに適しています。
モデル特徴
多言語サポート
multilingual-e5-largeベースモデルにより、複数言語のテキスト埋め込みを処理可能
高次元意味表現
テキストを1024次元の密なベクトル空間にマッピングし、深層の意味的特徴を捕捉
優れた検索性能
情報検索タスクで優れた性能を発揮し、accuracy@1が90.73%を達成
効率的な類似度計算
高速なコサイン類似度計算をサポートし、大規模なテキストマッチングに適している
モデル能力
意味的テキスト類似度計算
意味的検索
言い換えマイニング
テキスト分類
テキストクラスタリング
使用事例
情報検索
タグマッチング
ユーザークエリと事前定義されたタグライブラリを意味的にマッチング
accuracy@1が90.73%を達成
コンテンツ推薦
類似コンテンツ推薦
テキストの意味的類似度に基づいて関連コンテンツを推薦
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:10356
- loss:MultipleNegativesRankingLoss base_model: intfloat/multilingual-e5-large widget:
- source_sentence: ホーンバンドレッグウェアは、上部バンドに角のあるキャラクターデザインが施された、しばしば太ももまでの高さのレッグウェアの一種です。
sentences:
- ホーンバンドレッグウェア
- フレーム外の頭部
- スウェットパンツ
- source_sentence: キャラクターが靴紐を結んでしっかりとした蝶結びにしている場面。
sentences:
- ヘアタイ
- 靴紐を結ぶ
- 緩んだネクタイ
- source_sentence: 人物の眼鏡が通常の位置から外され、手に持たれている場合にこのタグを使用します。鼻や頭の上にまだ載っている場合は、眼鏡の調整とその関連タグを参照してください。
sentences:
- 牛のコスチューム
- サロン
- 外した眼鏡を持っている
- source_sentence: キャラクターの両手が別のキャラクターの太ももに置かれている場面。
sentences:
- ベーキング
- 三つ子
- 他人の太ももに手を置く
- source_sentence: 腰から突き出た長い付属肢。しばしば毛皮や鱗で覆われています。動物系少女の一般的な特徴です。
sentences:
- しっぽ
- グレーフレームの眼鏡
- お腹の日 datasets:
- meandyou200175/word_embedding pipeline_tag: sentence-similarity library_name: sentence-transformers metrics:
- cosine_accuracy@1
- cosine_accuracy@2
- cosine_accuracy@5
- cosine_accuracy@10
- cosine_accuracy@100
- cosine_precision@1
- cosine_precision@2
- cosine_precision@5
- cosine_precision@10
- cosine_precision@100
- cosine_recall@1
- cosine_recall@2
- cosine_recall@5
- cosine_recall@10
- cosine_recall@100
- cosine_ndcg@10
- cosine_mrr@1
- cosine_mrr@2
- cosine_mrr@5
- cosine_mrr@10
- cosine_mrr@100
- cosine_map@100 model-index:
- name: intfloat/multilingual-e5-largeを基にしたSentenceTransformer
results:
- task:
type: information-retrieval
name: 情報検索
dataset:
name: 不明
type: unknown
metrics:
- type: cosine_accuracy@1 value: 0.9073359073359073 name: コサイン類似度 Accuracy@1
- type: cosine_accuracy@2 value: 0.9739382239382239 name: コサイン類似度 Accuracy@2
- type: cosine_accuracy@5 value: 0.9942084942084942 name: コサイン類似度 Accuracy@5
- type: cosine_accuracy@10 value: 0.999034749034749 name: コサイン類似度 Accuracy@10
- type: cosine_accuracy@100 value: 1.0 name: コサイン類似度 Accuracy@100
- type: cosine_precision@1 value: 0.9073359073359073 name: コサイン類似度 Precision@1
- type: cosine_precision@2 value: 0.48696911196911197 name: コサイン類似度 Precision@2
- type: cosine_precision@5 value: 0.19884169884169883 name: コサイン類似度 Precision@5
- type: cosine_precision@10 value: 0.0999034749034749 name: コサイン類似度 Precision@10
- type: cosine_precision@100 value: 0.010000000000000002 name: コサイン類似度 Precision@100
- type: cosine_recall@1 value: 0.9073359073359073 name: コサイン類似度 Recall@1
- type: cosine_recall@2 value: 0.9739382239382239 name: コサイン類似度 Recall@2
- type: cosine_recall@5 value: 0.9942084942084942 name: コサイン類似度 Recall@5
- type: cosine_recall@10 value: 0.999034749034749 name: コサイン類似度 Recall@10
- type: cosine_recall@100 value: 1.0 name: コサイン類似度 Recall@100
- type: cosine_ndcg@10 value: 0.9601842774877813 name: コサイン類似度 NDCG@10
- type: cosine_mrr@1 value: 0.9073359073359073 name: コサイン類似度 MRR@1
- type: cosine_mrr@2 value: 0.9406370656370656 name: コサイン類似度 MRR@2
- type: cosine_mrr@5 value: 0.9462837837837839 name: コサイン類似度 MRR@5
- type: cosine_mrr@10 value: 0.946988570202856 name: コサイン類似度 MRR@10
- type: cosine_mrr@100 value: 0.9470763202906061 name: コサイン類似度 MRR@100
- type: cosine_map@100 value: 0.9470763202906061 name: コサイン類似度 MAP@100
- task:
type: information-retrieval
name: 情報検索
dataset:
name: 不明
type: unknown
metrics:
intfloat/multilingual-e5-largeを基にしたSentenceTransformer
これはintfloat/multilingual-e5-largeからファインチューニングされたsentence-transformersモデルです。文や段落を1024次元の密なベクトル空間にマッピングし、意味的なテキスト類似性、意味検索、パラフレーズマイニング、テキスト分類、クラスタリングなどに使用できます。
モデルの詳細
モデル説明
- モデルタイプ: センテンストランスフォーマー
- ベースモデル: intfloat/multilingual-e5-large
- 最大シーケンス長: 512トークン
- 出力次元数: 1024次元
- 類似度関数: コサイン類似度
モデルソース
- ドキュメント: Sentence Transformers ドキュメント
- リポジトリ: GitHub上のSentence Transformers
- Hugging Face: Hugging Face上のSentence Transformers
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
使用方法
直接使用(Sentence Transformers)
まずSentence Transformersライブラリをインストールします:
pip install -U sentence-transformers
その後、このモデルをロードして推論を実行できます。
from sentence_transformers import SentenceTransformer
# Hugging Face Hubからダウンロード
model = SentenceTransformer("meandyou200175/e5_large_finetune_word")
# 推論を実行
sentences = [
'腰から突き出た長い付属肢。しばしば毛皮や鱗で覆われています。動物系少女の一般的な特徴です。',
'しっぽ',
'お腹の日',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# 埋め込みの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
評価
メトリクス
情報検索
メトリクス | 値 |
---|---|
cosine_accuracy@1 | 0.9073 |
cosine_accuracy@2 | 0.9739 |
cosine_accuracy@5 | 0.9942 |
cosine_accuracy@10 | 0.999 |
cosine_accuracy@100 | 1.0 |
cosine_precision@1 | 0.9073 |
cosine_precision@2 | 0.487 |
cosine_precision@5 | 0.1988 |
cosine_precision@10 | 0.0999 |
cosine_precision@100 | 0.01 |
cosine_recall@1 | 0.9073 |
cosine_recall@2 | 0.9739 |
cosine_recall@5 | 0.9942 |
cosine_recall@10 | 0.999 |
cosine_recall@100 | 1.0 |
cosine_ndcg@10 | 0.9602 |
cosine_mrr@1 | 0.9073 |
cosine_mrr@2 | 0.9406 |
cosine_mrr@5 | 0.9463 |
cosine_mrr@10 | 0.947 |
cosine_mrr@100 | 0.9471 |
cosine_map@100 | 0.9471 |
トレーニング詳細
トレーニングデータセット
無名データセット
- サイズ: 10,356トレーニングサンプル
- 列:
query
とpositive
- 最初の1000サンプルに基づくおおよその統計:
query positive type string string details - min: 3トークン
- mean: 36.54トークン
- max: 177トークン
- min: 3トークン
- mean: 5.3トークン
- max: 13トークン
- サンプル:
query positive 半円形の形状をした眼鏡。
半円形の眼鏡
髪を乾かしスタイリングするための手持ち式電気器具。
ヘアドライヤー
片方の胸が露出しているが、もう片方が衣服で覆われているか隠されている場面。両方の胸が露出している場合はbreasts outタグを参照。
片方の胸が露出
- 損失:
MultipleNegativesRankingLoss
以下のパラメータで:{ "scale": 20.0, "similarity_fct": "cos_sim" }
評価データセット
word_embedding
- データセット: word_embedding at af76b11
- サイズ: 1,036評価サンプル
- 列:
query
とpositive
- 最初の1000サンプルに基づくおおよその統計:
query positive type string string details - min: 4トークン
- mean: 35.89トークン
- max: 164トークン
- min: 3トークン
- mean: 5.38トークン
- max: 14トークン
- サンプル:
query positive 命令リストに従ってデータを操作する機械。プログラムと呼ばれる命令リストを保存・実行する能力により、コンピュータは非常に汎用性が高い。Danbooruの画像では、主に描画、ゲームプレイ、インターネットアクセスに使用されています。
コンピュータ
2つのクラブが描かれたトランプ。
クラブの2
Yebisu(エビス)はサッポロビールが製造するビールです。1890年に東京で日本ビール醸造会社によって最初に醸造された、日本最古のブランドの一つです。
エビス
- 損失:
MultipleNegativesRankingLoss
以下のパラメータで:{ "scale": 20.0, "similarity_fct": "cos_sim" }
トレーニングハイパーパラメータ
非デフォルトハイパーパラメータ
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16learning_rate
: 2e-05num_train_epochs
: 5warmup_ratio
: 0.1fp16
: Truebatch_sampler
: no_duplicates
トレーニングログ
Epoch | Step | Training Loss | Validation Loss | cosine_ndcg@10 |
---|---|---|---|---|
-1 | -1 | - | - | 0.7166 |
0.1543 | 100 | 0.9191 | - | - |
0.3086 | 200 | 0.1876 | - | - |
0.4630 | 300 | 0.1547 | - | - |
0.6173 | 400 | 0.1556 | - | - |
0.7716 | 500 | 0.179 | - | - |
0.9259 | 600 | 0.1234 | - | - |
1.0802 | 700 | 0.087 | - | - |
1.2346 | 800 | 0.0576 | - | - |
1.3889 | 900 | 0.0564 | - | - |
1.5432 | 1000 | 0.0583 | 0.0271 | 0.9198 |
1.6975 | 1100 | 0.0764 | - | - |
1.8519 | 1200 | 0.0493 | - | - |
2.0062 | 1300 | 0.0481 | - | - |
2.1605 | 1400 | 0.0222 | - | - |
2.3148 | 1500 | 0.0234 | - | - |
2.4691 | 1600 | 0.0283 | - | - |
2.6235 | 1700 | 0.0236 | - | - |
2.7778 | 1800 | 0.026 | - | - |
2.9321 | 1900 | 0.0217 | - | - |
3.0864 | 2000 | 0.0193 | 0.0061 | 0.9534 |
3.2407 | 2100 | 0.0135 | - | - |
3.3951 | 2200 | 0.0162 | - | - |
3.5494 | 2300 | 0.0109 | - | - |
3.7037 | 2400 | 0.0107 | - | - |
3.8580 | 2500 | 0.0105 | - | - |
4.0123 | 2600 | 0.0095 | - | - |
4.1667 | 2700 | 0.0146 | - | - |
4.3210 | 2800 | 0.0102 | - | - |
4.4753 | 2900 | 0.0108 | - | - |
4.6296 | 3000 | 0.01 | 0.0061 | 0.9602 |
4.7840 | 3100 | 0.008 | - | - |
4.9383 | 3200 | 0.0117 | - | - |
フレームワークバージョン
- Python: 3.11.11
- Sentence Transformers: 3.4.1
- Transformers: 4.51.1
- PyTorch: 2.5.1+cu124
- Accelerate: 1.3.0
- Datasets: 3.5.0
- Tokenizers: 0.21.0
引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98