multilingual-e5-large-instruct-Q5_0-GGUFオープンソースモデル - 多言語テキスト埋め込みと分類タスクをサポート

ホーム

Multilingual E5 Large Instruct Q5 0 GGUF

yoevenによって開発

多言語E5大型命令モデルで、複数の言語のテキスト埋め込みと分類タスクをサポートします。

大規模言語モデル複数言語対応オープンソースライセンス:MIT #多言語テキスト埋め込み #高精度分類 #クロス言語検索

ダウンロード数 14

リリース時間 : 1/6/2025

モデル概要

intfloat/multilingual-e5-large-instructに基づく多言語テキスト埋め込みモデルで、幅広い分類、クラスタリング、検索タスクをサポートします。

モデル特徴

多言語サポート

50種類以上の言語のテキスト処理をサポートし、主流言語と一部のマイナー言語を含みます。

高性能分類

MTEBベンチマークテストで優れた性能を発揮し、特に英語の分類タスクでは96％以上の正解率を達成します。

強力な検索能力

複数の検索タスクで良好な性能を発揮し、特にバイリンガルテキストマイニングタスクでは99％の正解率を達成します。

広範な適用性

分類、クラスタリング、検索、再ランキングなどの複数の自然言語処理タスクをサポートします。

モデル能力

テキスト分類

テキストクラスタリング

情報検索

バイリンガルテキストマイニング

意味的類似度計算

テキスト再ランキング

使用事例

電子商取引

商品レビュー分類

多言語の商品レビューに対して感情分析と分類を行います。

Amazonレビュー分類タスクで英語の正解率が56.7％に達します。

反事実レビュー検出

誤解を招く可能性のある商品レビューを識別します。

Amazon反事実分類タスクで英語の正解率が76.2％に達します。

情報検索

文書検索

大規模な文書集合から関連情報を検索します。

ArguAnaデータセットで平均精度@10が49.2％に達します。

バイリンガル文書アライメント

異なる言語の類似文書を自動的にマッチングします。

BUCCバイリンガルマイニングタスクで99.6％の正解率に達します。

学術研究

論文クラスタリング

学術論文に対してテーマクラスタリングを行います。

Arxiv論文クラスタリングタスクでv_measureが46.4％に達します。

🚀 multilingual-e5-large-instruct

multilingual-e5-large-instructは、多言語対応のモデルです。多様な言語に対応し、様々な自然言語処理タスクでの使用が想定されています。

📄 ライセンス

このモデルのライセンスはMITです。

📚 ドキュメント

基本情報

属性	詳情
モデルタイプ	多言語対応モデル
ベースモデル	intfloat/multilingual-e5-large-instruct
対応言語	アフリカーンス語、アムハラ語、アラビア語、アッサム語、アゼルバイジャン語、ベラルーシ語、ブルガリア語、ベンガル語、ブルトン語、ボスニア語、カタルーニャ語、チェコ語、ウェールズ語、デンマーク語、ドイツ語、ギリシャ語、英語、エスペラント語、スペイン語、エストニア語、バスク語、ペルシア語、フィンランド語、フランス語、フリジア語、アイルランド語、スコットランド・ゲール語、ガリシア語、グジャラート語、ハウサ語、ヘブライ語、ヒンディー語、クロアチア語、ハンガリー語、アルメニア語、インドネシア語、アイスランド語、イタリア語、日本語、ジャワ語、ジョージア語、カザフ語、クメール語、カンナダ語、韓国語、クルド語、キルギス語、ラテン語、ラオス語、リトアニア語、ラトビア語、マダガスカル語、マケドニア語、マラヤーラム語、モンゴル語、マラーティー語、マレー語、ミャンマー語、ネパール語、オランダ語、ノルウェー語、オロモ語、オリヤー語、パンジャーブ語、ポーランド語、パシュトー語、ポルトガル語、ルーマニア語、ロシア語、サンスクリット語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、アルバニア語、セルビア語、スンダ語、スウェーデン語、スワヒリ語、タミル語、テルグ語、タイ語、タガログ語、トルコ語、ウイグル語、ウクライナ語、ウルドゥー語、ウズベク語、ベトナム語、コサ語、イディッシュ語、中国語

評価結果

Classificationタスク

MTEB AmazonCounterfactualClassification (en)
- 精度 (accuracy): 76.23880597014924
- 平均適合率 (ap): 39.07351965022687
- F1値 (f1): 70.04836733862683
MTEB AmazonCounterfactualClassification (de)
- 精度 (accuracy): 66.71306209850107
- 平均適合率 (ap): 79.01499914759529
- F1値 (f1): 64.81951817560703
MTEB AmazonCounterfactualClassification (en - ext)
- 精度 (accuracy): 73.85307346326837
- 平均適合率 (ap): 22.447519885878737
- F1値 (f1): 61.0162730745633
MTEB AmazonCounterfactualClassification (ja)
- 精度 (accuracy): 76.04925053533191
- 平均適合率 (ap): 23.44983217128922
- F1値 (f1): 62.5723230907759
MTEB AmazonPolarityClassification
- 精度 (accuracy): 96.28742500000001
- 平均適合率 (ap): 94.8449918887462
- F1値 (f1): 96.28680923610432
MTEB AmazonReviewsClassification (en)
- 精度 (accuracy): 56.716
- F1値 (f1): 55.76510398266401
MTEB AmazonReviewsClassification (de)
- 精度 (accuracy): 52.99999999999999
- F1値 (f1): 52.00829994765178
MTEB AmazonReviewsClassification (es)
- 精度 (accuracy): 48.806000000000004
- F1値 (f1): 48.082345914983634
MTEB AmazonReviewsClassification (fr)
- 精度 (accuracy): 48.507999999999996
- F1値 (f1): 47.68752844642045
MTEB AmazonReviewsClassification (ja)
- 精度 (accuracy): 47.709999999999994
- F1値 (f1): 47.05870376637181
MTEB AmazonReviewsClassification (zh)
- 精度 (accuracy): 44.662000000000006
- F1値 (f1): 43.42371965372771
MTEB Banking77Classification
- 精度 (accuracy): 85.73376623376623
- F1値 (f1): 85.68480707214599

Retrievalタスク

MTEB ArguAna
- map_at_1: 31.721
- map_at_10: 49.221
- map_at_100: 49.884
- map_at_1000: 49.888
- map_at_3: 44.31
- map_at_5: 47.276
- mrr_at_1: 32.432
- mrr_at_10: 49.5
- mrr_at_100: 50.163000000000004
- mrr_at_1000: 50.166
- mrr_at_3: 44.618
- mrr_at_5: 47.541
- ndcg_at_1: 31.721
- ndcg_at_10: 58.384
- ndcg_at_100: 61.111000000000004
- ndcg_at_1000: 61.187999999999995
- ndcg_at_3: 48.386
- ndcg_at_5: 53.708999999999996
- precision_at_1: 31.721
- precision_at_10: 8.741
- precision_at_100: 0.991
- precision_at_1000: 0.1
- precision_at_3: 20.057
- precision_at_5: 14.609
- recall_at_1: 31.721
- recall_at_10: 87.411
- recall_at_100: 99.075
- recall_at_1000: 99.644
- recall_at_3: 60.171
- recall_at_5: 73.044
MTEB CQADupstackRetrieval
- map_at_1: 27.764166666666668
- map_at_10: 37.298166666666674
- map_at_100: 38.530166666666666
- map_at_1000: 38.64416666666667
- map_at_3: 34.484833333333334
- map_at_5: 36.0385
- mrr_at_1: 32.93558333333333
- mrr_at_10: 41.589749999999995
- mrr_at_100: 42.425333333333334
- mrr_at_1000: 42.476333333333336
- mrr_at_3: 39.26825
- mrr_at_5: 40.567083333333336
- ndcg_at_1: 32.93558333333333
- ndcg_at_10: 42.706583333333334
- ndcg_at_100: 47.82483333333333
- ndcg_at_1000: 49.95733333333334
- ndcg_at_3: 38.064750000000004
- ndcg_at_5: 40.18158333333333
- precision_at_1: 32.93558333333333
- precision_at_10: 7.459833333333334
- precision_at_100: 1.1830833333333335
- precision_at_1000: 0.15608333333333332
- precision_at_3: 17.5235
- precision_at_5: 12.349833333333333
- recall_at_1: 27.764166666666668
- recall_at_10: 54.31775
- recall_at_100: 76.74350000000001
- recall_at_1000: 91.45208333333332
- recall_at_3: 41.23425
- recall_at_5: 46.73983333333334
MTEB ClimateFEVER
- map_at_1: 12.969
- map_at_10: 21.584999999999997
- map_at_100: 23.3
- map_at_1000: 23.5
- map_at_3: 18.218999999999998
- map_at_5: 19.983
- mrr_at_1: 29.316
- mrr_at_10: 40.033
- mrr_at_100: 40.96
- mrr_at_1000: 41.001
- mrr_at_3: 37.123
- mrr_at_5: 38.757999999999996
- ndcg_at_1: 29.316
- ndcg_at_10: 29.858
- ndcg_at_100: 36.756
- ndcg_at_1000: 40.245999999999995
- ndcg_at_3: 24.822
- ndcg_at_5: 26.565
- precision_at_1: 29.316
- precision_at_10: 9.186
- precision_at_100: 1.6549999999999998
- precision_at_1000: 0.22999999999999998
- precision_at_3: 18.436
- precision_at_5: 13.876
- recall_at_1: 12.969
- recall_at_10: 35.142
- recall_at_100: 59.143
- recall_at_1000: 78.594
- recall_at_3: 22.604
- recall_at_5: 27.883000000000003
MTEB DBPedia
- map_at_1: 8.527999999999999
- map_at_10: 17.974999999999998
- map_at_100: 25.665
- map_at_1000: 27.406000000000002
- map_at_3: 13.017999999999999
- map_at_5: 15.137
- mrr_at_1: 62.5
- mrr_at_10: 71.891
- mrr_at_100: 72.294
- mrr_at_1000: 72.296
- mrr_at_3: 69.958
- mrr_at_5: 71.121
- ndcg_at_1: 50.875
- ndcg_at_10: 38.36
- ndcg_at_100: 44.235
- ndcg_at_1000: 52.154
- ndcg_at_3: 43.008
- ndcg_at_5: 40.083999999999996
- precision_at_1: 62.5
- precision_at_10: 30.0
- precision_at_100: 10.038
- precision_at_1000: 2.0869999999999997
- precision_at_3: 46.833000000000006
- precision_at_5: 38.800000000000004

Clusteringタスク

MTEB ArxivClusteringP2P
- V測度 (v_measure): 46.40419580759799
MTEB ArxivClusteringS2S
- V測度 (v_measure): 40.48593255007969
MTEB BiorxivClusteringP2P
- V測度 (v_measure): 40.935218072113855
MTEB BiorxivClusteringS2S
- V測度 (v_measure): 36.276389017675264

Rerankingタスク

MTEB AskUbuntuDupQuestions
- 平均適合率 (map): 63.889179122289995
- 平均逆順位 (mrr): 77.61146286769556

STSタスク

MTEB BIOSSES
- コサイン類似度のピアソン相関係数 (cos_sim_pearson): 88.15075203727929
- コサイン類似度のスピアマン相関係数 (cos_sim_spearman): 86.9622224570873
- ユークリッド距離のピアソン相関係数 (euclidean_pearson): 86.70473853624121
- ユークリッド距離のスピアマン相関係数 (euclidean_spearman): 86.9622224570873
- マンハッタン距離のピアソン相関係数 (manhattan_pearson): 86.21089380980065
- マンハッタン距離のスピアマン相関係数 (manhattan_spearman): 86.75318154937008

BitextMiningタスク

MTEB BUCC (de - en)
- 精度 (accuracy): 99.65553235908142
- F1値 (f1): 99.60681976339595
- 適合率 (precision): 99.58246346555325
- 再現率 (recall): 99.65553235908142
MTEB BUCC (fr - en)
- 精度 (accuracy): 99.26260180497468
- F1値 (f1): 99.14520507740848
- 適合率 (precision): 99.08650671362535
- 再現率 (recall): 99.26260180497468
MTEB BUCC (ru - en)
- 精度 (accuracy): 98.07412538967787
- F1値 (f1): 97.86629719431936
- 適合率 (precision): 97.76238309664012
- 再現率 (recall): 98.07412538967787
MTEB BUCC (zh - en)
- 精度 (accuracy): 99.42074776197998
- F1値 (f1): 99.38564156573635
- 適合率 (precision): 99.36808846761454
- 再現率 (recall): 99.42074776197998