Jina Embeddings V3
J
Jina Embeddings V3
jinaaiによって開発
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
ダウンロード数 3.7M
リリース時間 : 9/5/2024
モデル概要
このモデルは多言語文埋め込みモデルで、テキストを高次元ベクトル表現に変換し、文の類似度計算や特徴抽出に使用できます。幅広い言語をサポートし、言語間情報検索や意味的類似度計算タスクに適しています。
モデル特徴
多言語サポート
主流言語から多数の少数言語まで100以上の言語をサポート
文埋め込み
文を高次元ベクトル表現に変換し、意味的類似度計算を容易にする
特徴抽出
テキストから意味のある特徴表現を抽出可能
モデル能力
文類似度計算
多言語テキスト埋め込み
意味的特徴抽出
言語間情報検索
使用事例
情報検索
言語間ドキュメント検索
異なる言語のドキュメントコレクションから意味的に類似したコンテンツを検索
MTEB ArguAna-PLデータセットで50.12の主要スコアを達成
意味的類似度
文類似度計算
2つの文間の意味的類似度を計算
MTEB AFQMCデータセットで43.47のスピアマン相関係数を達成
🚀 jina-embeddings-v3
このモデルは、特徴抽出、文章の類似度計算などのタスクに使用できる多言語対応のモデルです。MTEBベンチマークでの評価結果が提供されており、様々な言語やタスクに対する性能を確認できます。
📚 詳細ドキュメント
基本情報
属性 | 詳情 |
---|---|
モデルタイプ | 特徴抽出、文章の類似度計算、MTEB、Sentence Transformers |
学習データ | 未記載 |
推論 | 無効 |
ライブラリ名 | Transformers |
評価結果
MTEB AFQMC (default)
- データセットタイプ: C-MTEB/AFQMC
- タスクタイプ: STS | 指標 | 値 | |------|------| | cosine_pearson | 41.74237700998808 | | cosine_spearman | 43.4726782647566 | | euclidean_pearson | 42.244585459479964 | | euclidean_spearman | 43.525070045169606 | | main_score | 43.4726782647566 | | manhattan_pearson | 42.04616728224863 | | manhattan_spearman | 43.308828270754645 | | pearson | 41.74237700998808 | | spearman | 43.4726782647566 |
MTEB ArguAna-PL (default)
- データセットタイプ: clarin-knext/arguana-pl
- タスクタイプ: Retrieval | 指標 | 値 | |------|------| | main_score | 50.117999999999995 | | map_at_1 | 24.253 | | map_at_10 | 40.725 | | map_at_100 | 41.699999999999996 | | map_at_1000 | 41.707 | | map_at_20 | 41.467999999999996 | | map_at_3 | 35.467 | | map_at_5 | 38.291 | | mrr_at_1 | 24.751066856330013 | | mrr_at_10 | 40.91063808169072 | | mrr_at_100 | 41.885497923928675 | | mrr_at_1000 | 41.89301098419842 | | mrr_at_20 | 41.653552355442514 | | mrr_at_3 | 35.656709340919775 | | mrr_at_5 | 38.466097676623946 | | nauc_map_at_1000_diff1 | 7.503000359807567 | | nauc_map_at_1000_max | -11.030405164830546 | | nauc_map_at_1000_std | -8.902792782585117 | | nauc_map_at_100_diff1 | 7.509899249593199 | | nauc_map_at_100_max | -11.023581259404406 | | nauc_map_at_100_std | -8.892241185067272 | | nauc_map_at_10_diff1 | 7.24369711881512 | | nauc_map_at_10_max | -10.810000200433278 | | nauc_map_at_10_std | -8.987230542165776 | | nauc_map_at_1_diff1 | 11.37175831832417 | | nauc_map_at_1_max | -13.315221903223055 | | nauc_map_at_1_std | -9.398199605510275 | | nauc_map_at_20_diff1 | 7.477364530860648 | | nauc_map_at_20_max | -10.901251218105566 | | nauc_map_at_20_std | -8.868148116405925 | | nauc_map_at_3_diff1 | 6.555548802174882 | | nauc_map_at_3_max | -12.247274800542934 | | nauc_map_at_3_std | -9.879475250984811 | | nauc_map_at_5_diff1 | 7.426588563355882 | | nauc_map_at_5_max | -11.347695686001805 | | nauc_map_at_5_std | -9.34441892203972 | | nauc_mrr_at_1000_diff1 | 5.99737552143614 | | nauc_mrr_at_1000_max | -11.327205136505727 | | nauc_mrr_at_1000_std | -8.791079115519503 | | nauc_mrr_at_100_diff1 | 6.004622525255784 | | nauc_mrr_at_100_max | -11.320336759899723 | | nauc_mrr_at_100_std | -8.780602249831777 | | nauc_mrr_at_10_diff1 | 5.783623516930227 | | nauc_mrr_at_10_max | -11.095971693467078 | | nauc_mrr_at_10_std | -8.877242032013582 | | nauc_mrr_at_1_diff1 | 9.694937537703797 | | nauc_mrr_at_1_max | -12.531905083727912 | | nauc_mrr_at_1_std | -8.903992940100146 | | nauc_mrr_at_20_diff1 | 5.984841206233873 | | nauc_mrr_at_20_max | -11.195236951048969 | | nauc_mrr_at_20_std | -8.757266039186018 | | nauc_mrr_at_3_diff1 | 5.114333824261379 | | nauc_mrr_at_3_max | -12.64809799843464 | | nauc_mrr_at_3_std | -9.791146138025184 | | nauc_mrr_at_5_diff1 | 5.88941606224512 | | nauc_mrr_at_5_max | -11.763903418071918 | | nauc_mrr_at_5_std | -9.279175712709446 | | nauc_ndcg_at_1000_diff1 | 7.076950652226086 | | nauc_ndcg_at_1000_max | -10.386482092087371 | | nauc_ndcg_at_1000_std | -8.309190917074046 | | nauc_ndcg_at_100_diff1 | 7.2329220284865245 | | nauc_ndcg_at_100_max | -10.208048403220337 | | nauc_ndcg_at_100_std | -7.997975874274613 | | nauc_ndcg_at_10_diff1 | 6.065391100006953 | | nauc_ndcg_at_10_max | -9.046164377601153 | | nauc_ndcg_at_10_std | -8.34724889697153 | | nauc_ndcg_at_1_diff1 | 11.37175831832417 | | nauc_ndcg_at_1_max | -13.315221903223055 | | nauc_ndcg_at_1_std | -9.398199605510275 | | nauc_ndcg_at_20_diff1 | 6.949389989202601 | | nauc_ndcg_at_20_max | -9.35740451760307 | | nauc_ndcg_at_20_std | -7.761295171828212 | | nauc_ndcg_at_3_diff1 | 5.051471796151364 | | nauc_ndcg_at_3_max | -12.158763333711653 | | nauc_ndcg_at_3_std | -10.078902544421926 | | nauc_ndcg_at_5_diff1 | 6.527454512611454 | | nauc_ndcg_at_5_max | -10.525118233848586 | | nauc_ndcg_at_5_std | -9.120055125584031 | | nauc_precision_at_1000_diff1 | -10.6495668199151 | | nauc_precision_at_1000_max | 12.070656425217841 | | nauc_precision_at_1000_std | 55.844551709649004 | | nauc_precision_at_100_diff1 | 19.206967129266285 | | nauc_precision_at_100_max | 16.296851020813456 | | nauc_precision_at_100_std | 45.60378984257811 | | nauc_precision_at_10_diff1 | 0.6490335354304879 | | nauc_precision_at_10_max | 0.5757198255366447 | | nauc_precision_at_10_std | -4.875847131691451 | | nauc_precision_at_1_diff1 | 11.37175831832417 | | nauc_precision_at_1_max | -13.315221903223055 | | nauc_precision_at_1_std | -9.398199605510275 | | nauc_precision_at_20_diff1 | 4.899369866929203 | | nauc_precision_at_20_max | 5.988537297189552 | | nauc_precision_at_20_std | 4.830900387582837 | | nauc_precision_at_3_diff1 | 0.8791156910997744 | | nauc_precision_at_3_max | -11.983373635905993 | | nauc_precision_at_3_std | -10.646185111581257 | | nauc_precision_at_5_diff1 | 3.9314486166548432 | | nauc_precision_at_5_max | -7.798591396895839 | | nauc_precision_at_5_std | -8.293043407234125 | | nauc_recall_at_1000_diff1 | -10.649566819918673 | | nauc_recall_at_1000_max | 12.070656425214647 | | nauc_recall_at_1000_std | 55.84455170965023 | | nauc_recall_at_100_diff1 | 19.206967129265127 | | nauc_recall_at_100_max | 16.296851020813722 | | nauc_recall_at_100_std | 45.60378984257728 | | nauc_recall_at_10_diff1 | 0.6490335354304176 | | nauc_recall_at_10_max | 0.5757198255366095 | | nauc_recall_at_10_std | -4.875847131691468 | | nauc_recall_at_1_diff1 | 11.37175831832417 | | nauc_recall_at_1_max | -13.315221903223055 | | nauc_recall_at_1_std | -9.398199605510275 | | nauc_recall_at_20_diff1 | 4.899369866929402 | | nauc_recall_at_20_max | 5.98853729718968 | | nauc_recall_at_20_std | 4.830900387582967 | | nauc_recall_at_3_diff1 | 0.8791156910997652 | | nauc_recall_at_3_max | -11.983373635905997 | | nauc_recall_at_3_std | -10.64618511158124 | | nauc_recall_at_5_diff1 | 3.9314486166548472 | | nauc_recall_at_5_max | -7.7985913968958585 | | nauc_recall_at_5_std | -8.293043407234132 | | ndcg_at_1 | 24.253 | | ndcg_at_10 | 50.117999999999995 | | ndcg_at_100 | 54.291999999999994 | | ndcg_at_1000 | 54.44799999999999 | | ndcg_at_20 | 52.771 | | ndcg_at_3 | 39.296 | | ndcg_at_5 | 44.373000000000005 | | precision_at_1 | 24.253 | | precision_at_10 | 8.016 | | precision_at_100 | 0.984 | | precision_at_1000 | 0.1 | | precision_at_20 | 4.527 | | precision_at_3 | 16.808999999999997 | | precision_at_5 | 12.546 | | recall_at_1 | 24.253 | | recall_at_10 | 80.156 | | recall_at_100 | 98.43499999999999 | | recall_at_1000 | 99.57300000000001 | | recall_at_20 | 90.54100000000001 | | recall_at_3 | 50.427 | | recall_at_5 | 62.731 |
MTEB DBPedia-PL (default)
- データセットタイプ: clarin-knext/dbpedia-pl
- タスクタイプ: Retrieval | 指標 | 値 | |------|------| | main_score | 34.827000000000005 | | map_at_1 | 7.049999999999999 | | map_at_10 | 14.982999999999999 | | map_at_100 | 20.816000000000003 | | map_at_1000 | 22.33 | | map_at_20 | 17.272000000000002 | | map_at_3 | 10.661 | | map_at_5 | 12.498 | | mrr_at_1 | 57.25 | | mrr_at_10 | 65.81934523809524 | | mrr_at_100 | 66.2564203928212 | | mrr_at_1000 | 66.27993662923856 | | mrr_at_20 | 66.0732139130649 | | mrr_at_3 | 64.08333333333333 | | mrr_at_5 | 65.27083333333333 | | nauc_map_at_1000_diff1 | 16.41780871174038 | | nauc_map_at_1000_max | 30.193946325654654 | | nauc_map_at_1000_std | 31.46095497039037 | | nauc_map_at_100_diff1 | 18.57903165498531 | | nauc_map_at_100_max | 29.541476938623262 | | nauc_map_at_100_std | 28.228604103301052 | | nauc_map_at_10_diff1 | 24.109434489748946 | | nauc_map_at_10_max | 21.475954208048968 | | nauc_map_at_10_std | 9.964464537806988 | | nauc_map_at_1_diff1 | 38.67437644802124 | | nauc_map_at_1_max | 14.52136658726491 | | nauc_map_at_1_std | -2.8981666782088755 | | nauc_map_at_20_diff1 | 21.42547228801935 | | nauc_map_at_20_max | 25.04510402960458 | | nauc_map_at_20_std | 16.533079346431155 | | nauc_map_at_3_diff1 | 26.63648858245477 | | nauc_map_at_3_max | 13.632235789780415 | | nauc_map_at_3_std | -0.40129174577700716 | | nauc_map_at_5_diff1 | 24.513861031197933 | | nauc_map_at_5_max | 16.599888813946688 | | nauc_map_at_5_std | 3.4448514739556346 | | nauc_mrr_at_1000_diff1 | 36.57353464537154 | | nauc_mrr_at_1000_max | 55.34763483979515 | | nauc_mrr_at_1000_std | 40.3722796438533 | | nauc_mrr_at_100_diff1 | 36.555989566513134 | | nauc_mrr_at_100_max | 55.347805216808396 | | nauc_mrr_at_100_std | 40.38465945075711 | | nauc_mrr_at_10_diff1 | 36.771572999261984 | | nauc_mrr_at_10_max | 55.41239897909165 | | nauc_mrr_at_10_std | 40.52058934624793 | | nauc_mrr_at_1_diff1 | 38.2472828531032 | | nauc_mrr_at_1_max | 51.528473828685705 | | nauc_mrr_at_1_std | 33.03676467942882 | | nauc_mrr_at_20_diff1 | 36.642602571889036 | | nauc_mrr_at_20_max | 55.3763342076553 | | nauc_mrr_at_20_std | 40.41520090500838 | | nauc_mrr_at_3_diff1 | 36.79451847426628 | | nauc_mrr_at_3_max | 54.59778581826193 | | nauc_mrr_at_3_std | 39.48392075873095 | | nauc_mrr_at_5_diff1 | 36.92150807529304 | | nauc_mrr_at_5_max | 55.03553978718272 | | nauc_mrr_at_5_std | 40.20147745489917 | | nauc_ndcg_at_1000_diff1 | 21.843092744321268 | | nauc_ndcg_at_1000_max | 44.93275990394279 | | nauc_ndcg_at_1000_std | 47.09186225236347 | | nauc_ndcg_at_100_diff1 | 25.180282568979095 | | nauc_ndcg_at_100_max | 41.737709709508394 | | nauc_ndcg_at_100_std | 38.80950644139446 | | nauc_ndcg_at_10_diff1 | 24.108368037214046 | | nauc_ndcg_at_10_max | 41.29298370689967 | | nauc_ndcg_at_10_std | 35.06450769738732 | | nauc_ndcg_at_1_diff1 | 35.51010679525079 | | nauc_ndcg_at_1_max | 42.40790024212412 | | nauc_ndcg_at_1_std | 26.696412036243157 | | nauc_ndcg_at_20_diff1 | 23.909989673256195 | | nauc_ndcg_at_20_max | 39.784 |
📄 ライセンス
このモデルはCC BY-NC 4.0ライセンスの下で提供されています。
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98