Instructor Large
I
Instructor Large
hkunlpによって開発
INSTRUCTOR はT5アーキテクチャに基づくテキスト埋め込みモデルで、文の類似度計算とテキスト分類タスクに特化しており、英語の自然言語処理をサポートしています。
ダウンロード数 186.12k
リリース時間 : 12/20/2022
モデル概要
このモデルは主にテキスト埋め込み、文の類似度計算、情報検索、テキスト分類などのタスクに使用され、複数のベンチマークテストで優れた性能を発揮します。
モデル特徴
マルチタスクサポート
文の類似度、テキスト分類、情報検索、テキストクラスタリングなど、さまざまなテキスト処理タスクをサポートします。
高性能
MTEBやBEIRデータセットなど、複数のベンチマークデータセットで優れた性能を発揮します。
柔軟なテキスト埋め込み
さまざまな下流タスクに適した高品質なテキスト埋め込みを生成できます。
モデル能力
テキスト埋め込み
文の類似度計算
情報検索
テキスト分類
テキストクラスタリング
テキスト再ランキング
特徴量抽出
使用事例
電子商取引
製品レビュー分類
Amazonの製品レビューを感情分析(ポジティブ/ネガティブ)で分類します。
MTEB AmazonPolarityClassificationデータセットで91.53%の精度を達成。
反事実的レビュー検出
Amazon上の反事実的レビューを識別します。
MTEB AmazonCounterfactualClassificationデータセットで88.13%の精度を達成。
カスタマーサービス
銀行問題分類
銀行の顧客質問を分類します。
MTEB Banking77Classificationデータセットで78.51%の精度を達成。
学術研究
学術論文クラスタリング
arXivとbioRxivの学術論文をトピックごとにクラスタリングします。
arXiv論文クラスタリングタスクでV-measure43.16%を達成。
質問応答システム
QA検索
技術Q&Aコミュニティで関連質問を検索します。
AskUbuntuDupQuestionsデータセットで平均精度64.30%を達成。
🚀 INSTRUCTOR
INSTRUCTORは、文章の類似度計算やテキスト分類、クラスタリングなどの自然言語処理タスクに特化したモデルです。このモデルは、多様なデータセットで訓練され、様々なタスクで高い性能を発揮します。
📚 詳細ドキュメント
モデル情報
属性 | 詳情 |
---|---|
モデルタイプ | 文章類似度計算、テキスト埋め込み、情報検索などのタスクに対応した言語モデル |
訓練データ | mteb/amazon_counterfactual、mteb/amazon_polarity、mteb/amazon_reviews_multiなど多数のデータセット |
評価結果
INSTRUCTORモデルの各タスクでの評価結果
タスクタイプ | データセット名 | 評価指標 | 値 |
---|---|---|---|
分類 | MTEB AmazonCounterfactualClassification (en) | 正解率 | 88.13432835820896 |
分類 | MTEB AmazonCounterfactualClassification (en) | AP | 59.298209334395665 |
分類 | MTEB AmazonCounterfactualClassification (en) | F1 | 83.31769058643586 |
分類 | MTEB AmazonPolarityClassification | 正解率 | 91.526375 |
分類 | MTEB AmazonPolarityClassification | AP | 88.16327709705504 |
分類 | MTEB AmazonPolarityClassification | F1 | 91.51095801287843 |
分類 | MTEB AmazonReviewsClassification (en) | 正解率 | 47.856 |
分類 | MTEB AmazonReviewsClassification (en) | F1 | 45.41490917650942 |
検索 | MTEB ArguAna | MAP@1 | 31.223 |
検索 | MTEB ArguAna | MAP@10 | 47.947 |
検索 | MTEB ArguAna | MAP@100 | 48.742000000000004 |
検索 | MTEB ArguAna | MAP@1000 | 48.745 |
検索 | MTEB ArguAna | MRR@1 | 32.432 |
検索 | MTEB ArguAna | MRR@10 | 48.4 |
検索 | MTEB ArguAna | MRR@100 | 49.202 |
検索 | MTEB ArguAna | MRR@1000 | 49.205 |
検索 | MTEB ArguAna | NDCG@1 | 31.223 |
検索 | MTEB ArguAna | NDCG@10 | 57.045 |
検索 | MTEB ArguAna | NDCG@100 | 60.175 |
検索 | MTEB ArguAna | NDCG@1000 | 60.233000000000004 |
検索 | MTEB ArguAna | 精度@1 | 31.223 |
検索 | MTEB ArguAna | 精度@10 | 8.599 |
検索 | MTEB ArguAna | 精度@100 | 0.991 |
検索 | MTEB ArguAna | 精度@1000 | 0.1 |
検索 | MTEB ArguAna | 再現率@1 | 31.223 |
検索 | MTEB ArguAna | 再現率@10 | 85.989 |
検索 | MTEB ArguAna | 再現率@100 | 99.075 |
検索 | MTEB ArguAna | 再現率@1000 | 99.502 |
クラスタリング | MTEB ArxivClusteringP2P | V-measure | 43.1621946393635 |
クラスタリング | MTEB ArxivClusteringS2S | V-measure | 32.56417132407894 |
再ランキング | MTEB AskUbuntuDupQuestions | MAP | 64.29539304390207 |
再ランキング | MTEB AskUbuntuDupQuestions | MRR | 76.44484017060196 |
STS | MTEB BIOSSES | コサイン類似度のスピアマン相関係数 | 84.38746499431112 |
分類 | MTEB Banking77Classification | 正解率 | 78.51298701298701 |
分類 | MTEB Banking77Classification | F1 | 77.49041754069235 |
クラスタリング | MTEB BiorxivClusteringP2P | V-measure | 37.61848554098577 |
クラスタリング | MTEB BiorxivClusteringS2S | V-measure | 31.32623280148178 |
検索 | MTEB CQADupstackAndroidRetrieval | MAP@1 | 35.803000000000004 |
検索 | MTEB CQADupstackAndroidRetrieval | MAP@10 | 48.848 |
検索 | MTEB CQADupstackAndroidRetrieval | MAP@100 | 50.5 |
検索 | MTEB CQADupstackAndroidRetrieval | MAP@1000 | 50.602999999999994 |
検索 | MTEB CQADupstackAndroidRetrieval | MRR@1 | 44.635000000000005 |
検索 | MTEB CQADupstackAndroidRetrieval | MRR@10 | 55.593 |
検索 | MTEB CQADupstackAndroidRetrieval | MRR@100 | 56.169999999999995 |
検索 | MTEB CQADupstackAndroidRetrieval | MRR@1000 | 56.19499999999999 |
検索 | MTEB CQADupstackAndroidRetrieval | NDCG@1 | 44.635000000000005 |
検索 | MTEB CQADupstackAndroidRetrieval | NDCG@10 | 55.899 |
検索 | MTEB CQADupstackAndroidRetrieval | NDCG@100 | 60.958 |
検索 | MTEB CQADupstackAndroidRetrieval | NDCG@1000 | 62.302 |
検索 | MTEB CQADupstackAndroidRetrieval | 精度@1 | 44.635000000000005 |
検索 | MTEB CQADupstackAndroidRetrieval | 精度@10 | 10.786999999999999 |
検索 | MTEB CQADupstackAndroidRetrieval | 精度@100 | 1.6580000000000001 |
検索 | MTEB CQADupstackAndroidRetrieval | 精度@1000 | 0.213 |
検索 | MTEB CQADupstackAndroidRetrieval | 再現率@1 | 35.803000000000004 |
検索 | MTEB CQADupstackAndroidRetrieval | 再現率@10 | 68.657 |
検索 | MTEB CQADupstackAndroidRetrieval | 再現率@100 | 89.77199999999999 |
検索 | MTEB CQADupstackAndroidRetrieval | 再現率@1000 | 97.67 |
検索 | MTEB CQADupstackEnglishRetrieval | MAP@1 | 33.706 |
検索 | MTEB CQADupstackEnglishRetrieval | MAP@10 | 44.896 |
検索 | MTEB CQADupstackEnglishRetrieval | MAP@100 | 46.299 |
検索 | MTEB CQADupstackEnglishRetrieval | MAP@1000 | 46.44 |
検索 | MTEB CQADupstackEnglishRetrieval | MRR@1 | 41.592 |
検索 | MTEB CQADupstackEnglishRetrieval | MRR@10 | 50.529 |
検索 | MTEB CQADupstackEnglishRetrieval | MRR@100 | 51.22 |
検索 | MTEB CQADupstackEnglishRetrieval | MRR@1000 | 51.258 |
検索 | MTEB CQADupstackEnglishRetrieval | NDCG@1 | 41.592 |
検索 | MTEB CQADupstackEnglishRetrieval | NDCG@10 | 50.77199999999999 |
検索 | MTEB CQADupstackEnglishRetrieval | NDCG@100 | 55.383 |
検索 | MTEB CQADupstackEnglishRetrieval | NDCG@1000 | 57.288 |
検索 | MTEB CQADupstackEnglishRetrieval | 精度@1 | 41.592 |
検索 | MTEB CQADupstackEnglishRetrieval | 精度@10 | 9.516 |
検索 | MTEB CQADupstackEnglishRetrieval | 精度@100 | 1.541 |
検索 | MTEB CQADupstackEnglishRetrieval | 精度@1000 | 0.2 |
検索 | MTEB CQADupstackEnglishRetrieval | 再現率@1 | 33.706 |
検索 | MTEB CQADupstackEnglishRetrieval | 再現率@10 | 61.353 |
検索 | MTEB CQADupstackEnglishRetrieval | 再現率@100 | 80.182 |
検索 | MTEB CQADupstackEnglishRetrieval | 再現率@1000 | 91.896 |
検索 | MTEB CQADupstackGamingRetrieval | MAP@1 | 44.424 |
検索 | MTEB CQADupstackGamingRetrieval | MAP@10 | 57.169000000000004 |
検索 | MTEB CQADupstackGamingRetrieval | MAP@100 | 58.202 |
検索 | MTEB CQADupstackGamingRetrieval | MAP@1000 | 58.242000000000004 |
検索 | MTEB CQADupstackGamingRetrieval | MRR@1 | 50.470000000000006 |
検索 | MTEB CQADupstackGamingRetrieval | MRR@10 | 60.489000000000004 |
検索 | MTEB CQADupstackGamingRetrieval | MRR@100 | 61.096 |
検索 | MTEB CQADupstackGamingRetrieval | MRR@1000 | 61.112 |
検索 | MTEB CQADupstackGamingRetrieval | NDCG@1 | 50.470000000000006 |
検索 | MTEB CQADupstackGamingRetrieval | NDCG@10 | 63.071999999999996 |
検索 | MTEB CQADupstackGamingRetrieval | NDCG@100 | 66.964 |
検索 | MTEB CQADupstackGamingRetrieval | NDCG@1000 | 67.659 |
検索 | MTEB CQADupstackGamingRetrieval | 精度@1 | 50.470000000000006 |
検索 | MTEB CQADupstackGamingRetrieval | 精度@10 | 10.019 |
検索 | MTEB CQADupstackGamingRetrieval | 精度@100 | 1.29 |
検索 | MTEB CQADupstackGamingRetrieval | 精度@1000 | 0.13899999999999998 |
検索 | MTEB CQADupstackGamingRetrieval | 再現率@1 | 44.424 |
検索 | MTEB CQADupstackGamingRetrieval | 再現率@10 | 77.02 |
検索 | MTEB CQADupstackGamingRetrieval | 再現率@100 | 93.738 |
検索 | MTEB CQADupstackGamingRetrieval | 再現率@1000 | 98.451 |
検索 | MTEB CQADupstackGisRetrieval | MAP@1 | 26.294 |
検索 | MTEB CQADupstackGisRetrieval | MAP@10 | 34.503 |
検索 | MTEB CQADupstackGisRetrieval | MAP@100 | 35.641 |
検索 | MTEB CQADupstackGisRetrieval | MAP@1000 | 35.724000000000004 |
検索 | MTEB CQADupstackGisRetrieval | MRR@1 | 28.362 |
検索 | MTEB CQADupstackGisRetrieval | MRR@10 | 36.53 |
検索 | MTEB CQADupstackGisRetrieval | MRR@100 | 37.541000000000004 |
検索 | MTEB CQADupstackGisRetrieval | MRR@1000 | 37.602000000000004 |
検索 | MTEB CQADupstackGisRetrieval | NDCG@1 | 28.362 |
検索 | MTEB CQADupstackGisRetrieval | NDCG@10 | 39.513999999999996 |
検索 | MTEB CQADupstackGisRetrieval | NDCG@100 | 44.815 |
検索 | MTEB CQADupstackGisRetrieval | NDCG@1000 | 46.839 |
検索 | MTEB CQADupstackGisRetrieval | 精度@1 | 28.362 |
検索 | MTEB CQADupstackGisRetrieval | 精度@10 | 6.101999999999999 |
検索 | MTEB CQADupstackGisRetrieval | 精度@100 | 0.9129999999999999 |
検索 | MTEB CQADupstackGisRetrieval | 精度@1000 | 0.11399999999999999 |
検索 | MTEB CQADupstackGisRetrieval | 再現率@1 | 26.294 |
検索 | MTEB CQADupstackGisRetrieval | 再現率@10 | 53.098 |
検索 | MTEB CQADupstackGisRetrieval | 再現率@100 | 76.877 |
検索 | MTEB CQADupstackGisRetrieval | 再現率@1000 | 91.834 |
検索 | MTEB CQADupstackMathematicaRetrieval | MAP@1 | 16.407 |
検索 | MTEB CQADupstackMathematicaRetrieval | MAP@10 | 25.185999999999996 |
検索 | MTEB CQADupstackMathematicaRetrieval | MAP@100 | 26.533 |
検索 | MTEB CQADupstackMathematicaRetrieval | MAP@1000 | 26.657999999999998 |
検索 | MTEB CQADupstackMathematicaRetrieval | MRR@1 | 20.522000000000002 |
検索 | MTEB CQADupstackMathematicaRetrieval | MRR@10 | 29.522 |
検索 | MTEB CQADupstackMathematicaRetrieval | MRR@100 | 30.644 |
検索 | MTEB CQADupstackMathematicaRetrieval | MRR@1000 | 30.713 |
検索 | MTEB CQADupstackMathematicaRetrieval | NDCG@1 | 20.522000000000002 |
検索 | MTEB CQADupstackMathematicaRetrieval | NDCG@10 | 30.656 |
検索 | MTEB CQADupstackMathematicaRetrieval | NDCG@100 | 36.864999999999995 |
検索 | MTEB CQADupstackMathematicaRetrieval | NDCG@1000 | 39.675 |
検索 | MTEB CQADupstackMathematicaRetrieval | 精度@1 | 20.522000000000002 |
検索 | MTEB CQADupstackMathematicaRetrieval | 精度@10 | 5.795999999999999 |
検索 | MTEB CQADupstackMathematicaRetrieval | 精度@100 | 1.027 |
検索 | MTEB CQADupstackMathematicaRetrieval | 精度@1000 | 0.13999999999999999 |
検索 | MTEB CQADupstackMathematicaRetrieval | 再現率@1 | 16.407 |
検索 | MTEB CQADupstackMathematicaRetrieval | 再現率@10 | 43.164 |
検索 | MTEB CQADupstackMathematicaRetrieval | 再現率@100 | 69.695 |
検索 | MTEB CQADupstackMathematicaRetrieval | 再現率@1000 | 89.41900000000001 |
検索 | MTEB CQADupstackPhysicsRetrieval | MAP@1 | 30.473 |
検索 | MTEB CQADupstackPhysicsRetrieval | MAP@10 | 41.676 |
検索 | MTEB CQADupstackPhysicsRetrieval | MAP@100 | 43.120999999999995 |
検索 | MTEB CQADupstackPhysicsRetrieval | MAP@1000 | 43.230000000000004 |
検索 | MTEB CQADupstackPhysicsRetrieval | MRR@1 | 37.536 |
検索 | MTEB CQADupstackPhysicsRetrieval | MRR@10 | 47.643 |
検索 | MTEB CQADupstackPhysicsRetrieval | MRR@100 | 48.508 |
検索 | MTEB CQADupstackPhysicsRetrieval | MRR@1000 | 48.551 |
検索 | MTEB CQADupstackPhysicsRetrieval | NDCG@1 | 37.536 |
検索 | MTEB CQADupstackPhysicsRetrieval | NDCG@10 | 47.823 |
検索 | MTEB CQADupstackPhysicsRetrieval | NDCG@100 | 53.395 |
検索 | MTEB CQADupstackPhysicsRetrieval | NDCG@1000 | 55.271 |
検索 | MTEB CQADupstackPhysicsRetrieval | 精度@1 | 37.536 |
検索 | MTEB CQADupstackPhysicsRetrieval | 精度@10 | 8.681 |
検索 | MTEB CQADupstackPhysicsRetrieval | 精度@100 | 1.34 |
検索 | MTEB CQADupstackPhysicsRetrieval | 精度@1000 | 0.165 |
検索 | MTEB CQADupstackPhysicsRetrieval | 再現率@1 | 30.473 |
検索 | MTEB CQADupstackPhysicsRetrieval | 再現率@10 | 60.092999999999996 |
検索 | MTEB CQADupstackPhysicsRetrieval | 再現率@100 | 82.733 |
検索 | MTEB CQADupstackPhysicsRetrieval | 再現率@1000 | 94.875 |
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98