Snowflake Arctic Embed M V1.5
S
Snowflake Arctic Embed M V1.5
Snowflakeによって開発
Snowflake Arctic Embed M v1.5は、文の類似度計算と特徴抽出タスクに特化した効率的な文埋め込みモデルです。
ダウンロード数 219.46k
リリース時間 : 7/3/2024
モデル概要
このモデルは、高品質の文埋め込みを生成するために設計されており、さまざまな検索と類似度計算タスクをサポートし、MTEBベンチマークテストで良好な結果を示しています。
モデル特徴
効率的な文埋め込み
高品質の文埋め込み表現を生成でき、さまざまな類似度計算タスクに適しています
MTEBベンチマークテスト検証
複数のMTEBベンチマークテストデータセットで優れた結果を示します
Transformers.jsをサポート
ブラウザ環境でTransformers.jsを使用して実行できます
モデル能力
文の類似度計算
特徴抽出
テキスト検索
意味検索
使用事例
情報検索
質問応答システム
ユーザーの質問に最も関連する回答を検索するために使用されます
CQADupstackデータセットで良好な検索性能を示しました
文書類似性検索
意味的に類似した文書または段落を検索します
ArguAnaデータセットで59.53の主要スコアを達成しました
コンテンツ推薦
関連コンテンツ推薦
意味的な類似度に基づいて関連コンテンツを推薦します
🚀 snowflake-arctic-embed-m-v1.5
このモデルは文の類似度を計算するためのもので、sentence-transformers
をベースに構築されています。MTEBの複数のデータセットで評価され、検索タスクに適しています。
✨ 主な機能
- 文の特徴抽出による類似度計算
- MTEBデータセットでの高い性能
📚 ドキュメント
モデル情報
属性 | 详情 |
---|---|
パイプラインタグ | 文の類似度 |
タグ | sentence-transformers, feature-extraction, sentence-similarity, mteb, arctic, snowflake-arctic-embed, transformers.js |
モデルタイプ | 検索 |
評価結果
MTEB ArguAna
指標 | 値 |
---|---|
メインスコア | 59.53000000000001 |
map_at_1 | 34.282000000000004 |
map_at_10 | 50.613 |
map_at_100 | 51.269 |
map_at_1000 | 51.271 |
map_at_20 | 51.158 |
map_at_3 | 45.626 |
map_at_5 | 48.638 |
mrr_at_1 | 34.92176386913229 |
mrr_at_10 | 50.856081645555406 |
mrr_at_100 | 51.510739437069034 |
mrr_at_1000 | 51.51299498830165 |
mrr_at_20 | 51.39987941081724 |
mrr_at_3 | 45.993361782835514 |
mrr_at_5 | 48.88098624940742 |
nauc_map_at_1000_diff1 | 10.628675774160785 |
nauc_map_at_1000_max | -10.11742589992339 |
nauc_map_at_1000_std | -18.29277379812427 |
nauc_map_at_100_diff1 | 10.63250240035489 |
nauc_map_at_100_max | -10.112078786734363 |
nauc_map_at_100_std | -18.288524872706834 |
nauc_map_at_10_diff1 | 10.476494913081712 |
nauc_map_at_10_max | -9.890937746734037 |
nauc_map_at_10_std | -18.279750514750443 |
nauc_map_at_1_diff1 | 14.549204048461151 |
nauc_map_at_1_max | -12.230560087701225 |
nauc_map_at_1_std | -19.469903650130362 |
nauc_map_at_20_diff1 | 10.586564571825674 |
nauc_map_at_20_max | -10.00292720526217 |
nauc_map_at_20_std | -18.258077347878064 |
nauc_map_at_3_diff1 | 10.378663968090372 |
nauc_map_at_3_max | -10.458896171786185 |
nauc_map_at_3_std | -18.38852760333766 |
nauc_map_at_5_diff1 | 10.235960275925581 |
nauc_map_at_5_max | -10.239496080409058 |
nauc_map_at_5_std | -18.817023479445886 |
nauc_mrr_at_1000_diff1 | 8.718212649575722 |
nauc_mrr_at_1000_max | -10.81022794038691 |
nauc_mrr_at_1000_std | -17.87669499555167 |
nauc_mrr_at_100_diff1 | 8.722174171165133 |
nauc_mrr_at_100_max | -10.804840985713525 |
nauc_mrr_at_100_std | -17.872487099359986 |
nauc_mrr_at_10_diff1 | 8.609421635870238 |
nauc_mrr_at_10_max | -10.568644717548432 |
nauc_mrr_at_10_std | -17.872968762635814 |
nauc_mrr_at_1_diff1 | 12.69590006263834 |
nauc_mrr_at_1_max | -12.082056561238321 |
nauc_mrr_at_1_std | -18.036424092186657 |
nauc_mrr_at_20_diff1 | 8.684842497970315 |
nauc_mrr_at_20_max | -10.691578914627286 |
nauc_mrr_at_20_std | -17.84350301434992 |
nauc_mrr_at_3_diff1 | 8.649761557556763 |
nauc_mrr_at_3_max | -11.104694428047496 |
nauc_mrr_at_3_std | -18.149917948370344 |
nauc_mrr_at_5_diff1 | 8.433489750038396 |
nauc_mrr_at_5_max | -10.917772454397436 |
nauc_mrr_at_5_std | -18.4094211134111 |
nauc_ndcg_at_1000_diff1 | 10.19041067807956 |
nauc_ndcg_at_1000_max | -9.54328201605796 |
nauc_ndcg_at_1000_std | -17.824620427456633 |
nauc_ndcg_at_100_diff1 | 10.289491087585963 |
nauc_ndcg_at_100_max | -9.357214331420337 |
nauc_ndcg_at_100_std | -17.657600653632873 |
nauc_ndcg_at_10_diff1 | 9.435530877596092 |
nauc_ndcg_at_10_max | -8.182581635383546 |
nauc_ndcg_at_10_std | -17.603156479980388 |
nauc_ndcg_at_1_diff1 | 14.549204048461151 |
nauc_ndcg_at_1_max | -12.230560087701225 |
nauc_ndcg_at_1_std | -19.469903650130362 |
nauc_ndcg_at_20_diff1 | 9.885227087275197 |
nauc_ndcg_at_20_max | -8.52362662391439 |
nauc_ndcg_at_20_std | -17.441705436231764 |
nauc_ndcg_at_3_diff1 | 9.22542769998547 |
nauc_ndcg_at_3_max | -9.903590564219288 |
nauc_ndcg_at_3_std | -18.357220221111593 |
nauc_ndcg_at_5_diff1 | 8.8756720745828 |
nauc_ndcg_at_5_max | -9.269764943861245 |
nauc_ndcg_at_5_std | -19.009229433187784 |
nauc_precision_at_1000_diff1 | 3.733355117431035 |
nauc_precision_at_1000_max | 3.9603571352517393 |
nauc_precision_at_1000_std | 70.07345061131439 |
nauc_precision_at_100_diff1 | 29.019032142462457 |
nauc_precision_at_100_max | 40.75153328286103 |
nauc_precision_at_100_std | 62.634249549126594 |
nauc_precision_at_10_diff1 | 2.5762677254910353 |
nauc_precision_at_10_max | 6.096298633773051 |
nauc_precision_at_10_std | -11.507400451348587 |
nauc_precision_at_1_diff1 | 14.549204048461151 |
nauc_precision_at_1_max | -12.230560087701225 |
nauc_precision_at_1_std | -19.469903650130362 |
nauc_precision_at_20_diff1 | 1.715540124567996 |
nauc_precision_at_20_max | 21.53546453945913 |
nauc_precision_at_20_std | 1.537961142195571 |
nauc_precision_at_3_diff1 | 5.701850652555737 |
nauc_precision_at_3_max | -8.180345365085552 |
nauc_precision_at_3_std | -18.37033750502482 |
nauc_precision_at_5_diff1 | 3.6053552181042843 |
nauc_precision_at_5_max | -5.207647070615612 |
nauc_precision_at_5_std | -19.89491085427258 |
nauc_recall_at_1000_diff1 | 3.733355117431255 |
nauc_recall_at_1000_max | 3.9603571352482194 |
nauc_recall_at_1000_std | 70.07345061131205 |
nauc_recall_at_100_diff1 | 29.01903214246288 |
nauc_recall_at_100_max | 40.7515332828621 |
nauc_recall_at_100_std | 62.63424954912607 |
nauc_recall_at_10_diff1 | 2.5762677254911988 |
nauc_recall_at_10_max | 6.0962986337729905 |
nauc_recall_at_10_std | -11.507400451348577 |
nauc_recall_at_1_diff1 | 14.549204048461151 |
nauc_recall_at_1_max | -12.230560087701225 |
nauc_recall_at_1_std | -19.469903650130362 |
nauc_recall_at_20_diff1 | 1.7155401245682675 |
nauc_recall_at_20_max | 21.535464539459632 |
nauc_recall_at_20_std | 1.5379611421957025 |
nauc_recall_at_3_diff1 | 5.7018506525557875 |
nauc_recall_at_3_max | -8.180345365085538 |
nauc_recall_at_3_std | -18.370337505024796 |
nauc_recall_at_5_diff1 | 3.6053552181043913 |
nauc_recall_at_5_max | -5.207647070615579 |
nauc_recall_at_5_std | -19.894910854272492 |
ndcg_at_1 | 34.282000000000004 |
ndcg_at_10 | 59.53000000000001 |
ndcg_at_100 | 62.187000000000005 |
ndcg_at_1000 | 62.243 |
ndcg_at_20 | 61.451 |
ndcg_at_3 | 49.393 |
ndcg_at_5 | 54.771 |
precision_at_1 | 34.282000000000004 |
precision_at_10 | 8.791 |
precision_at_100 | 0.992 |
precision_at_1000 | 0.1 |
precision_at_20 | 4.769 |
precision_at_3 | 20.104 |
precision_at_5 | 14.651 |
recall_at_1 | 34.282000000000004 |
recall_at_10 | 87.909 |
recall_at_100 | 99.21799999999999 |
recall_at_1000 | 99.644 |
recall_at_20 | 95.377 |
recall_at_3 | 60.313 |
recall_at_5 | 73.257 |
MTEB CQADupstackAndroidRetrieval
指標 | 値 |
---|---|
メインスコア | 53.885000000000005 |
map_at_1 | 35.429 |
map_at_10 | 47.469 |
map_at_100 | 48.997 |
map_at_1000 | 49.117 |
map_at_20 | 48.324 |
map_at_3 | 43.835 |
map_at_5 | 46.043 |
mrr_at_1 | 43.34763948497854 |
mrr_at_10 | 53.258623430297234 |
mrr_at_100 | 53.99123884299005 |
mrr_at_1000 | 54.02458101713216 |
mrr_at_20 | 53.695964669618945 |
mrr_at_3 | 50.81068192656173 |
mrr_at_5 | 52.45588936576058 |
nauc_map_at_1000_diff1 | 51.55382824218782 |
nauc_map_at_1000_max | 31.855350695084606 |
nauc_map_at_1000_std | -5.465862008150992 |
nauc_map_at_100_diff1 | 51.55889312452534 |
nauc_map_at_100_max | 31.88429637207401 |
nauc_map_at_100_std | -5.40805152544196 |
nauc_map_at_10_diff1 | 51.6592677505875 |
nauc_map_at_10_max | 31.554425233617543 |
nauc_map_at_10_std | -6.125756131339046 |
nauc_map_at_1_diff1 | 55.6889617582672 |
nauc_map_at_1_max | 27.821166966868176 |
nauc_map_at_1_std | -5.778838498211728 |
nauc_map_at_20_diff1 | 51.70520970992564 |
nauc_map_at_20_max | 31.811676633900465 |
nauc_map_at_20_std | -5.463596751904718 |
nauc_map_at_3_diff1 | 53.206169626589606 |
nauc_map_at_3_max | 31.64373830824983 |
nauc_map_at_3_std | -6.054761451312827 |
nauc_map_at_5_diff1 | 52.37308971673694 |
nauc_map_at_5_max | 31.974302019633644 |
nauc_map_at_5_std | -6.302653399940531 |
nauc_mrr_at_1000_diff1 | 49.345152231490616 |
nauc_mrr_at_1000_max | 33.49789501712511 |
nauc_mrr_at_1000_std | -6.054730861163538 |
nauc_mrr_at_100_diff1 | 49.3387577601307 |
nauc_mrr_at_100_max | 33.48149992464187 |
nauc_mrr_at_100_std | -6.061177137579308 |
nauc_mrr_at_10_diff1 | 49.08312288449718 |
nauc_mrr_at_10_max | 33.470393322577465 |
nauc_mrr_at_10_std | -6.180286430216975 |
nauc_mrr_at_1_diff1 | 52.43364978537192 |
nauc_mrr_at_1_max | 31.521755633355713 |
nauc_mrr_at_1_std | -7.002499524130836 |
nauc_mrr_at_20_diff1 | 49.311059224991766 |
nauc_mrr_at_20_max | 33.538523037692144 |
nauc_mrr_at_20_std | -6.034619474981136 |
nauc_mrr_at_3_diff1 | 49.90489868439366 |
nauc_mrr_at_3_max | 34.400493912164606 |
nauc_mrr_at_3_std | -6.028875320994629 |
nauc_mrr_at_5_diff1 | 49.033661898983475 |
nauc_mrr_at_5_max | 33.732315350193936 |
nauc_mrr_at_5_std | -6.272548556330368 |
nauc_ndcg_at_1000_diff1 | 49.81681892539247 |
nauc_ndcg_at_1000_max | 33.06518006062093 |
nauc_ndcg_at_1000_std | -4.282105713014755 |
nauc_ndcg_at_100_diff1 | 49.42362108857786 |
nauc_ndcg_at_100_max | 32.92024325540483 |
nauc_ndcg_at_100_std | -3.7786765305496717 |
nauc_ndcg_at_10_diff1 | 48.83102435475594 |
nauc_ndcg_at_10_max | 31.898404563611958 |
nauc_ndcg_at_10_std | -6.2024003866707 |
nauc_ndcg_at_1_diff1 | 52.43364978537192 |
nauc_ndcg_at_1_max | 31.521755633355713 |
nauc_ndcg_at_1_std | -7.002499524130836 |
nauc_ndcg_at_20_diff1 | 49.466526454438316 |
nauc_ndcg_at_20_max | 32.424462698701674 |
nauc_ndcg_at_20_std | -4.520809563712905 |
nauc_ndcg_at_3_diff1 | 50.997884562583884 |
nauc_ndcg_at_3_max | 33.26787046916917 |
nauc_ndcg_at_3_std | -6.340699471083753 |
nauc_ndcg_at_5_diff1 | 49.68314458398097 |
nauc_ndcg_at_5_max | 32.80910071143984 |
nauc_ndcg_at_5_std | -6.734495576445887 |
nauc_precision_at_1000_diff1 | -24.18940012795299 |
nauc_precision_at_1000_max | -10.995343674356896 |
nauc_precision_at_1000_std | -8.298841004724856 |
nauc_precision_at_100_diff1 | -18.104939577865935 |
nauc_precision_at_100_max | -1.3757613100627637 |
nauc_precision_at_100_std | 0.07661922190466432 |
nauc_precision_at_10_diff1 | 3.9624459059275967 |
nauc_precision_at_10_max | 14.841561593450391 |
nauc_precision_at_10_std | -2.485374333613117 |
nauc_precision_at_1_diff1 | 52.43364978537192 |
nauc_precision_at_1_max | 31.521755633355713 |
nauc_precision_at_1_std | -7.002499524130836 |
nauc_precision_at_20_diff1 | -4.4791763436505265 |
nauc_precision_at_20_max | 9.157872836996276 |
nauc_precision_at_20_std | 2.086903518342088 |
nauc_precision_at_3_diff1 | 28.480888018235568 |
nauc_precision_at_3_max | 30.34526267718485 |
nauc_precision_at_3_std | -6.3006706923866025 |
nauc_precision_at_5_diff1 | 16.488039195453517 |
nauc_precision_at_5_max | 24.593477099241852 |
nauc_precision_at_5_std | -5.316448107840636 |
nauc_recall_at_1000_diff1 | 34.715187316533076 |
nauc_recall_at_1000_max | 58.2266544684947 |
nauc_recall_at_1000_std | 63.85237636398278 |
nauc_recall_at_100_diff1 | 36.08623826028132 |
nauc_recall_at_100_max | 33.05011429439473 |
nauc_recall_at_100_std | 16.559545021212564 |
nauc_recall_at_10_diff1 | 39.76738610714205 |
nauc_recall_at_10_max | 28.233045706945997 |
nauc_recall_at_10_std | -5.13243784043598 |
nauc_recall_at_1_diff1 | 55.6889617582672 |
nauc_recall_at_1_max | 27.821166966868176 |
nauc_recall_at_1_std | -5.778838498211728 |
nauc_recall_at_20_diff1 | 41.18682480073759 |
nauc_recall_at_20_max | 29.525993239296945 |
nauc_recall_at_20_std | 1.5003598438954298 |
nauc_recall_at_3_diff1 | 48.31879460301157 |
nauc_recall_at_3_max | 32.93751306970167 |
nauc_recall_at_3_std | -5.28070084211707 |
nauc_recall_at_5_diff1 | 44.327686388315435 |
nauc_recall_at_5_max | 32.04823486234599 |
nauc_recall_at_5_std | -6.4221525602778256 |
ndcg_at_1 | 43.348 |
ndcg_at_10 | 53.885000000000005 |
ndcg_at_100 | 59.204 |
ndcg_at_1000 | 60.744 |
ndcg_at_20 | 55.995 |
ndcg_at_3 | 49.112 |
ndcg_at_5 | 51.61900000000001 |
precision_at_1 | 43.348 |
precision_at_10 | 10.242999999999999 |
precision_at_100 | 1.6150000000000002 |
precision_at_1000 | 0.203 |
precision_at_20 | 6.066 |
precision_at_3 | 23.605 |
precision_at_5 | 17.024 |
recall_at_1 | 35.429 |
recall_at_10 | 65.77199999999999 |
recall_at_100 | 87.89 |
recall_at_1000 | 97.13000000000001 |
recall_at_20 | 73.299 |
recall_at_3 | 52.034000000000006 |
recall_at_5 | 58.96 |
MTEB CQADupstackEnglishRetrieval
指標 | 値 |
---|---|
メインスコア | 49.55 |
map_at_1 | 31.684 |
map_at_10 | 43.258 |
map_at_100 | 44.628 |
map_at_1000 | 44.761 |
map_at_20 | 44.015 |
map_at_3 | 39.778000000000006 |
map_at_5 | 41.643 |
mrr_at_1 | 39.87261146496815 |
mrr_at_10 | 49.31978566373469 |
mrr_at_100 | 49.94922739445482 |
mrr_at_1000 | 49.990325601254106 |
mrr_at_20 | 49.70597468576704 |
mrr_at_3 | 47.070063694267546 |
mrr_at_5 | 48.23248407643316 |
nauc_map_at_1000_diff1 | 53.44044712371752 |
nauc_map_at_1000_max | 34.5651440062204 |
nauc_map_at_1000_std | -0.9814384609230475 |
nauc_map_at_100_diff1 | 53.429004435388464 |
nauc_map_at_100_max | 34.52038957273436 |
nauc_map_at_100_std | -1.1021936362699805 |
nauc_map_at_10_diff1 | 53.879128574022005 |
nauc_map_at_10_max | 33.74771524140917 |
nauc_map_at_10_std | -2.945132777205236 |
nauc_map_at_1_diff1 | 60.25159799695403 |
nauc_map_at_1_max | 26.843892985235808 |
nauc_map_at_1_std | -9.618702739509093 |
nauc_map_at_20_diff1 | 53.56789898225283 |
nauc_map_at_20_max | 34.11628845872402 |
nauc_map_at_20_std | -2.024376635870884 |
nauc_map_at_3_diff1 | 54.45882099014072 |
nauc_map_at_3_max | 31.29495446507793 |
nauc_map_at_3_std | -6.3 |
(他の指標も同様に記載) | (他の指標も同様に記載) |
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98