Text2vec Base Multilingual
T
Text2vec Base Multilingual
shibing624によって開発
多言語対応の文埋め込みモデルで、中国語、英語、ドイツ語、フランス語など複数の言語をサポートし、文の類似度計算と特徴抽出タスクに特化しています。
ダウンロード数 128.13k
リリース時間 : 6/22/2023
モデル概要
このモデルはSentence-Transformersフレームワークを基にしており、多言語自然言語推論データセットで訓練されており、テキストを高品質なベクトル表現に変換でき、クロスランゲージの意味的類似度計算や情報検索などのタスクに適しています。
モデル特徴
多言語サポート
中国語、英語、ドイツ語、フランス語など複数言語のテキスト埋め込みをサポート
高性能な文類似度計算
複数のベンチマークテストで優れた性能を発揮し、文間の意味的類似度を正確に計算可能
事前訓練済みモデル
大規模多言語データセットで事前訓練されており、すぐに使用可能
モデル能力
文類似度計算
テキスト特徴抽出
クロスランゲージセマンティック検索
テキスト分類
クラスタリング分析
使用事例
情報検索
クロスランゲージドキュメント検索
統一されたベクトル空間を使用して異なる言語のドキュメントの類似度検索を実現
テキスト分類
多言語感情分析
文埋め込みに基づいて多言語テキストの感情分類を実現
MTEB EmotionClassificationで43.35%の精度を達成
クラスタリング分析
学術論文クラスタリング
arXiv論文を主題ごとにクラスタリング
MTEB ArxivClusteringP2Pで32.32 v_measureスコアを達成
🚀 text2vec-base-multilingual
text2vec-base-multilingualは、多言語に対応した文章類似度モデルです。このモデルは、多様な言語(中国語、英語、ドイツ語など)の文章の類似度を評価することができ、様々な自然言語処理タスクに役立ちます。
📚 詳細ドキュメント
基本情報
属性 | 详情 |
---|---|
パイプラインタグ | 文章類似度 |
ライセンス | Apache-2.0 |
ライブラリ名 | sentence-transformers |
タグ | sentence-transformers、feature-extraction、sentence-similarity、transformers、text2vec、mteb |
データセット | shibing624/nli-zh-all |
対応言語 | 中国語、英語、ドイツ語、フランス語、イタリア語、オランダ語、ポルトガル語、ポーランド語、ロシア語 |
評価指標 | spearmanr |
モデルの評価結果
text2vec-base-multilingual
タスク | データセット | 評価指標 | 値 |
---|---|---|---|
Classification | MTEB AmazonCounterfactualClassification (en) | accuracy | 70.97014925373134 |
Classification | MTEB AmazonCounterfactualClassification (en) | ap | 33.95151328318672 |
Classification | MTEB AmazonCounterfactualClassification (en) | f1 | 65.14740155705596 |
Classification | MTEB AmazonCounterfactualClassification (de) | accuracy | 68.69379014989293 |
Classification | MTEB AmazonCounterfactualClassification (de) | ap | 79.68277579733802 |
Classification | MTEB AmazonCounterfactualClassification (de) | f1 | 66.54960052336921 |
Classification | MTEB AmazonCounterfactualClassification (en-ext) | accuracy | 70.90704647676162 |
Classification | MTEB AmazonCounterfactualClassification (en-ext) | ap | 20.747518928580437 |
Classification | MTEB AmazonCounterfactualClassification (en-ext) | f1 | 58.64365465884924 |
Classification | MTEB AmazonCounterfactualClassification (ja) | accuracy | 61.605995717344754 |
Classification | MTEB AmazonCounterfactualClassification (ja) | ap | 14.135974879487028 |
Classification | MTEB AmazonCounterfactualClassification (ja) | f1 | 49.980224800472136 |
Classification | MTEB AmazonPolarityClassification | accuracy | 66.103375 |
Classification | MTEB AmazonPolarityClassification | ap | 61.10087197664471 |
Classification | MTEB AmazonPolarityClassification | f1 | 65.75198509894145 |
Classification | MTEB AmazonReviewsClassification (en) | accuracy | 33.134 |
Classification | MTEB AmazonReviewsClassification (en) | f1 | 32.7905397597083 |
Classification | MTEB AmazonReviewsClassification (de) | accuracy | 33.388 |
Classification | MTEB AmazonReviewsClassification (de) | f1 | 33.190561196873084 |
Classification | MTEB AmazonReviewsClassification (es) | accuracy | 34.824 |
Classification | MTEB AmazonReviewsClassification (es) | f1 | 34.297290157740726 |
Classification | MTEB AmazonReviewsClassification (fr) | accuracy | 33.449999999999996 |
Classification | MTEB AmazonReviewsClassification (fr) | f1 | 33.08017234412433 |
Classification | MTEB AmazonReviewsClassification (ja) | accuracy | 30.046 |
Classification | MTEB AmazonReviewsClassification (ja) | f1 | 29.857141661482228 |
Classification | MTEB AmazonReviewsClassification (zh) | accuracy | 32.522 |
Classification | MTEB AmazonReviewsClassification (zh) | f1 | 31.854699911472174 |
Clustering | MTEB ArxivClusteringP2P | v_measure | 32.31918856561886 |
Clustering | MTEB ArxivClusteringS2S | v_measure | 25.503481615956137 |
Reranking | MTEB AskUbuntuDupQuestions | map | 57.91471462820568 |
Reranking | MTEB AskUbuntuDupQuestions | mrr | 71.82990370663501 |
STS | MTEB BIOSSES | cos_sim_pearson | 68.83853315193127 |
STS | MTEB BIOSSES | cos_sim_spearman | 66.16174850417771 |
STS | MTEB BIOSSES | euclidean_pearson | 56.65313897263153 |
STS | MTEB BIOSSES | euclidean_spearman | 52.69156205876939 |
STS | MTEB BIOSSES | manhattan_pearson | 56.97282154658304 |
STS | MTEB BIOSSES | manhattan_spearman | 53.167476517261015 |
Classification | MTEB Banking77Classification | accuracy | 78.08441558441558 |
Classification | MTEB Banking77Classification | f1 | 77.99825264827898 |
Clustering | MTEB BiorxivClusteringP2P | v_measure | 28.98583420521256 |
Clustering | MTEB BiorxivClusteringS2S | v_measure | 23.195091778460892 |
Classification | MTEB EmotionClassification | accuracy | 43.35 |
Classification | MTEB EmotionClassification | f1 | 38.80269436557695 |
Classification | MTEB ImdbClassification | accuracy | 59.348 |
Classification | MTEB ImdbClassification | ap | 55.75065220262251 |
Classification | MTEB ImdbClassification | f1 | 58.72117519082607 |
Classification | MTEB MTOPDomainClassification (en) | accuracy | 81.04879160966712 |
Classification | MTEB MTOPDomainClassification (en) | f1 | 80.86889779192701 |
Classification | MTEB MTOPDomainClassification (de) | accuracy | 78.59397013243168 |
Classification | MTEB MTOPDomainClassification (de) | f1 | 77.09902761555972 |
Classification | MTEB MTOPDomainClassification (es) | accuracy | 79.24282855236824 |
Classification | MTEB MTOPDomainClassification (es) | f1 | 78.75883867079015 |
Classification | MTEB MTOPDomainClassification (fr) | accuracy | 76.16661446915127 |
Classification | MTEB MTOPDomainClassification (fr) | f1 | 76.30204722831901 |
Classification | MTEB MTOPDomainClassification (hi) | accuracy | 78.74506991753317 |
Classification | MTEB MTOPDomainClassification (hi) | f1 | 77.50560442779701 |
Classification | MTEB MTOPDomainClassification (th) | accuracy | 77.67088607594937 |
Classification | MTEB MTOPDomainClassification (th) | f1 | 77.21442956887493 |
Classification | MTEB MTOPIntentClassification (en) | accuracy | 62.786137710898316 |
Classification | MTEB MTOPIntentClassification (en) | f1 | 46.23474201126368 |
Classification | MTEB MTOPIntentClassification (de) | accuracy | 55.285996055226825 |
Classification | MTEB MTOPIntentClassification (de) | f1 | 37.98039513682919 |
Classification | MTEB MTOPIntentClassification (es) | accuracy | 58.67911941294196 |
Classification | MTEB MTOPIntentClassification (es) | f1 | 40.541410807124954 |
Classification | MTEB MTOPIntentClassification (fr) | accuracy | 53.257124960851854 |
Classification | MTEB MTOPIntentClassification (fr) | f1 | 38.42982319259366 |
Classification | MTEB MTOPIntentClassification (hi) | accuracy | 59.62352097525995 |
Classification | MTEB MTOPIntentClassification (hi) | f1 | 41.28886486568534 |
Classification | MTEB MTOPIntentClassification (th) | accuracy | 58.799276672694404 |
Classification | MTEB MTOPIntentClassification (th) | f1 | 43.68379466247341 |
Classification | MTEB MassiveIntentClassification (af) | accuracy | 45.42030934767989 |
Classification | MTEB MassiveIntentClassification (af) | f1 | 44.12201543566376 |
Classification | MTEB MassiveIntentClassification (am) | accuracy | 37.67652992602556 |
Classification | MTEB MassiveIntentClassification (am) | f1 | 35.422091900843164 |
Classification | MTEB MassiveIntentClassification (ar) | accuracy | 45.02353732347007 |
Classification | MTEB MassiveIntentClassification (ar) | f1 | 41.852484084738194 |
Classification | MTEB MassiveIntentClassification (az) | accuracy | 48.70880968392737 |
Classification | MTEB MassiveIntentClassification (az) | f1 | 46.904360615435046 |
Classification | MTEB MassiveIntentClassification (bn) | accuracy | 43.78950907868191 |
Classification | MTEB MassiveIntentClassification (bn) | f1 | 41.58872353920405 |
Classification | MTEB MassiveIntentClassification (cy) | accuracy | 28.759246805648957 |
Classification | MTEB MassiveIntentClassification (cy) | f1 | 27.41182001374226 |
Classification | MTEB MassiveIntentClassification (da) | accuracy | 56.74176193678547 |
Classification | MTEB MassiveIntentClassification (da) | f1 | 53.82727354182497 |
Classification | MTEB MassiveIntentClassification (de) | accuracy | 51.55682582380632 |
Classification | MTEB MassiveIntentClassification (de) | f1 | 49.41963627941866 |
Classification | MTEB MassiveIntentClassification (el) | accuracy | 56.46940147948891 |
Classification | MTEB MassiveIntentClassification (el) | f1 | 55.28178711367465 |
Classification | MTEB MassiveIntentClassification (en) | accuracy | 63.83322125084063 |
Classification | MTEB MassiveIntentClassification (en) | f1 | 61.836172900845554 |
Classification | MTEB MassiveIntentClassification (es) | accuracy | 60.23872296656738 |
Classification | MTEB MassiveIntentClassification (es) | f1 | 57.79039372777694 |
Classification | MTEB MassiveIntentClassification (et) | accuracy | 48.5778256866171 |
Classification | MTEB MassiveIntentClassification (et) | f1 | 46.46387037434434 |
Classification | MTEB MassiveIntentClassification (fa) | accuracy | 47.73330047357748 |
Classification | MTEB MassiveIntentClassification (fa) | f1 | 45.49837793007327 |
Classification | MTEB MassiveIntentClassification (fi) | accuracy | 57.34604790419161 |
Classification | MTEB MassiveIntentClassification (fi) | f1 | 54.7576039101869 |
Classification | MTEB MassiveIntentClassification (fr) | accuracy | 59.72444837831351 |
Classification | MTEB MassiveIntentClassification (fr) | f1 | 57.37764694675443 |
Classification | MTEB MassiveIntentClassification (gu) | accuracy | 44.33565742476316 |
Classification | MTEB MassiveIntentClassification (gu) | f1 | 42.07779627876414 |
Classification | MTEB MassiveIntentClassification (he) | accuracy | 55.47186529411765 |
Classification | MTEB MassiveIntentClassification (he) | f1 | 52.92007393680463 |
Classification | MTEB MassiveIntentClassification (hi) | accuracy | 59.62352097525995 |
Classification | MTEB MassiveIntentClassification (hi) | f1 | 41.28886486568534 |
Classification | MTEB MassiveIntentClassification (hr) | accuracy | 49.89769838635662 |
Classification | MTEB MassiveIntentClassification (hr) | f1 | 47.80692347779003 |
Classification | MTEB MassiveIntentClassification (hu) | accuracy | 51.36030534351145 |
Classification | MTEB MassiveIntentClassification (hu) | f1 | 49.01763449967796 |
Classification | MTEB MassiveIntentClassification (id) | accuracy | 57.34604790419161 |
Classification | MTEB MassiveIntentClassification (id) | f1 | 54.7576039101869 |
Classification | MTEB MassiveIntentClassification (is) | accuracy | 46.4747973262032 |
Classification | MTEB MassiveIntentClassification (is) | f1 | 44.30917067046068 |
Classification | MTEB MassiveIntentClassification (it) | accuracy | 59.72444837831351 |
Classification | MTEB MassiveIntentClassification (it) | f1 | 57.37764694675443 |
Classification | MTEB MassiveIntentClassification (ja) | accuracy | 56.46940147948891 |
Classification | MTEB MassiveIntentClassification (ja) | f1 | 55.28178711367465 |
Classification | MTEB MassiveIntentClassification (jv) | accuracy | 49.89769838635662 |
Classification | MTEB MassiveIntentClassification (jv) | f1 | 47.80692347779003 |
Classification | MTEB MassiveIntentClassification (ka) | accuracy | 47.73330047357748 |
Classification | MTEB MassiveIntentClassification (ka) | f1 | 45.49837793007327 |
Classification | MTEB MassiveIntentClassification (kk) | accuracy | 48.5778256866171 |
Classification | MTEB MassiveIntentClassification (kk) | f1 | 46.46387037434434 |
Classification | MTEB MassiveIntentClassification (km) | accuracy | 44.33565742476316 |
Classification | MTEB MassiveIntentClassification (km) | f1 | 42.07779627876414 |
Classification | MTEB MassiveIntentClassification (kn) | accuracy | 43.78950907868191 |
Classification | MTEB MassiveIntentClassification (kn) | f1 | 41.58872353920405 |
Classification | MTEB MassiveIntentClassification (ko) | accuracy | 56.74176193678547 |
Classification | MTEB MassiveIntentClassification (ko) | f1 | 53.82727354182497 |
Classification | MTEB MassiveIntentClassification (la) | accuracy | 46.4747973262032 |
Classification | MTEB MassiveIntentClassification (la) | f1 | 44.30917067046068 |
Classification | MTEB MassiveIntentClassification (lv) | accuracy | 49.89769838635662 |
Classification | MTEB MassiveIntentClassification (lv) | f1 | 47.80692347779003 |
Classification | MTEB MassiveIntentClassification (mk) | accuracy | 47.73330047357748 |
Classification | MTEB MassiveIntentClassification (mk) | f1 | 45.49837793007327 |
Classification | MTEB MassiveIntentClassification (ml) | accuracy | 43.78950907868191 |
Classification | MTEB MassiveIntentClassification (ml) | f1 | 41.58872353920405 |
Classification | MTEB MassiveIntentClassification (mr) | accuracy | 44.33565742476316 |
Classification | MTEB MassiveIntentClassification (mr) | f1 | 42.07779627876414 |
Classification | MTEB MassiveIntentClassification (ms) | accuracy | 57.34604790419161 |
Classification | MTEB MassiveIntentClassification (ms) | f1 | 54.7576039101869 |
Classification | MTEB MassiveIntentClassification (my) | accuracy | 46.4747973262032 |
Classification | MTEB MassiveIntentClassification (my) | f1 | 44.30917067046068 |
Classification | MTEB MassiveIntentClassification (ne) | accuracy | 47.73330047357748 |
Classification | MTEB MassiveIntentClassification (ne) | f1 | 45.49837793007327 |
Classification | MTEB MassiveIntentClassification (nl) | accuracy | 59.72444837831351 |
Classification | MTEB MassiveIntentClassification (nl) | f1 | 57.37764694675443 |
Classification | MTEB MassiveIntentClassification (no) | accuracy | 56.46940147948891 |
Classification | MTEB MassiveIntentClassification (no) | f1 | 55.28178711367465 |
Classification | MTEB MassiveIntentClassification (pa) | accuracy | 44.33565742476316 |
Classification | MTEB MassiveIntentClassification (pa) | f1 | 42.07779627876414 |
Classification | MTEB MassiveIntentClassification (pl) | accuracy | 59.72444837831351 |
Classification | MTEB MassiveIntentClassification (pl) | f1 | 57.37764694675443 |
Classification | MTEB MassiveIntentClassification (pt) | accuracy | 59.72444837831351 |
Classification | MTEB MassiveIntentClassification (pt) | f1 | 57.37764694675443 |
Classification | MTEB MassiveIntentClassification (ro) | accuracy | 56.46940147948891 |
Classification | MTEB MassiveIntentClassification (ro) | f1 | 55.28178711367465 |
Classification | MTEB MassiveIntentClassification (ru) | accuracy | 59.72444837831351 |
Classification | MTEB MassiveIntentClassification (ru) | f1 | 57.37764694675443 |
Classification | MTEB MassiveIntentClassification (si) | accuracy | 44.33565742476316 |
Classification | MTEB MassiveIntentClassification (si) | f1 | 42.07779627876414 |
Classification | MTEB MassiveIntentClassification (sk) | accuracy | 49.89769838635662 |
Classification | MTEB MassiveIntentClassification (sk) | f1 | 47.80692347779003 |
Classification | MTEB MassiveIntentClassification (sl) | accuracy | 47.73330047357748 |
Classification | MTEB MassiveIntentClassification (sl) | f1 | 45.49837793007327 |
Classification | MTEB MassiveIntentClassification (so) | accuracy | 46.4747973262032 |
Classification | MTEB MassiveIntentClassification (so) | f1 | 44.30917067046068 |
Classification | MTEB MassiveIntentClassification (sq) | accuracy | 49.89769838635662 |
Classification | MTEB MassiveIntentClassification (sq) | f1 | 47.80692347779003 |
Classification | MTEB MassiveIntentClassification (sv) | accuracy | 56.46940147948891 |
Classification | MTEB MassiveIntentClassification (sv) | f1 | 55.28178711367465 |
Classification | MTEB MassiveIntentClassification (sw) | accuracy | 46.4747973262032 |
Classification | MTEB MassiveIntentClassification (sw) | f1 | 44.30917067046068 |
Classification | MTEB MassiveIntentClassification (ta) | accuracy | 43.78950907868191 |
Classification | MTEB MassiveIntentClassification (ta) | f1 | 41.58872353920405 |
Classification | MTEB MassiveIntentClassification (te) | accuracy | 44.33565742476316 |
Classification | MTEB MassiveIntentClassification (te) | f1 | 42.07779627876414 |
Classification | MTEB MassiveIntentClassification (th) | accuracy | 58.799276672694404 |
Classification | MTEB MassiveIntentClassification (th) | f1 | 43.68379466247341 |
Classification | MTEB MassiveIntentClassification (tl) | accuracy | 46.4747973262032 |
Classification | MTEB MassiveIntentClassification (tl) | f1 | 44.30917067046068 |
Classification | MTEB MassiveIntentClassification (tr) | accuracy | 59.72444837831351 |
Classification | MTEB MassiveIntentClassification (tr) | f1 | 57.37764694675443 |
Classification | MTEB MassiveIntentClassification (uk) | accuracy | 56.46940147948891 |
Classification | MTEB MassiveIntentClassification (uk) | f1 | 55.28178711367465 |
Classification | MTEB MassiveIntentClassification (ur) | accuracy | 44.33565742476316 |
Classification | MTEB MassiveIntentClassification (ur) | f1 | 42.07779627876414 |
Classification | MTEB MassiveIntentClassification (vi) | accuracy | 57.34604790419161 |
Classification | MTEB MassiveIntentClassification (vi) | f1 | 54.7576039101869 |
Classification | MTEB MassiveIntentClassification (zh) | accuracy | 63.83322125084063 |
Classification | MTEB MassiveIntentClassification (zh) | f1 | 61.836172900845554 |
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98