Minicpm Embedding Light
M
Minicpm Embedding Light
openbmbによって開発
このモデルは、意味テキスト類似度や分類タスクを含む複数の中国語と英語のデータセットでテストされました。
ダウンロード数 2,172
リリース時間 : 1/17/2025
モデル概要
このモデルは主に意味テキスト類似度と分類タスクに使用され、中国語と英語をサポートします。
モデル特徴
多言語対応
中国語と英語の意味テキスト類似度と分類タスクをサポートします。
多タスク能力
意味テキスト類似度や分類などの複数のタスクを処理できます。
モデル能力
意味テキスト類似度計算
テキスト分類
多言語処理
使用事例
電子商取引
アマゾンレビュー分類
アマゾンの商品レビューを感情分類します。
英語のレビュー分類の正解率は47.95%、中国語のレビュー分類の正解率は43.92%です。
意味解析
意味テキスト類似度計算
2つのテキストの意味類似度を計算します。
AFQMCデータセットでのコサインピアソン値は31.60、ATECデータセットでは40.90です。
🚀 モデル評価結果の表示
このREADMEドキュメントは、未命名のモデルが複数のデータセットで行った評価結果を示しています。評価は、意味的なテキストの類似度(STS)、分類、検索、クラスタリングなど、様々なタスクを対象としています。
📚 詳細ドキュメント
モデル評価情報
データセット名 | タスクタイプ | 主要指標 | 指標値 |
---|---|---|---|
MTEB AFQMC (default) | STS | main_score | 32.26566089398552 |
MTEB ATEC (default) (test) | STS | main_score | 40.342262626966686 |
MTEB ATEC (default) (validation) | STS | main_score | 41.15073385665892 |
MTEB AmazonCounterfactualClassification (en) | 分類 | main_score | 74.1492537313433 |
MTEB AmazonPolarityClassification (default) | 分類 | main_score | 92.57937499999998 |
MTEB AmazonReviewsClassification (en) | 分類 | main_score | 47.95399999999999 |
MTEB AmazonReviewsClassification (zh) | 分類 | main_score | 43.916000000000004 |
MTEB ArguAna (default) | 検索 | main_score | 55.97299999999999 |
MTEB ArxivClusteringP2P (default) | クラスタリング | main_score | 48.31683216128774 |
MTEB ArxivClusteringS2S (default) | クラスタリング | main_score | 40.2951016935384 |
MTEB AskUbuntuDupQuestions (default) | 再ランキング | main_score | 60.45095169935259 |
MTEB BIOSSES (default) | STS | main_score | 88.4670760233051 |
MTEB BQ (default) (test) | STS | main_score | 49.77342815602789 |
MTEB BQ (default) (validation) | STS | main_score | 54.24325202324013 |
MTEB Banking77Classification (default) | 分類 | main_score | 82.11038961038962 |
MTEB BiorxivClusteringP2P (default) | クラスタリング | main_score | 39.85718105201471 |
MTEB BiorxivClusteringS2S (default) | クラスタリング | main_score | 34.901371726743854 |
MTEB CLSClusteringP2P (default) | クラスタリング | main_score | 42.580911514601844 |
MTEB CLSClusteringS2S (default) | クラスタリング | main_score | 38.36369670561906 |
各データセットの詳細指標
MTEB AFQMC (default)
指標タイプ | 指標値 |
---|---|
cosine_pearson | 31.60219205269865 |
cosine_spearman | 32.26566089398552 |
euclidean_pearson | 31.38659295608159 |
euclidean_spearman | 32.265680997074284 |
main_score | 32.26566089398552 |
manhattan_pearson | 31.012318343485934 |
manhattan_spearman | 31.881347232593882 |
pearson | 31.60219205269865 |
spearman | 32.26566089398552 |
MTEB ATEC (default) (test)
指標タイプ | 指標値 |
---|---|
cosine_pearson | 40.89963324512739 |
cosine_spearman | 40.342262626966686 |
euclidean_pearson | 43.26579075620696 |
euclidean_spearman | 40.34226375259283 |
main_score | 40.342262626966686 |
manhattan_pearson | 43.09428997760782 |
manhattan_spearman | 40.132604575720485 |
pearson | 40.89963324512739 |
spearman | 40.342262626966686 |
MTEB ATEC (default) (validation)
指標タイプ | 指標値 |
---|---|
cosine_pearson | 40.97674579633659 |
cosine_spearman | 41.15073385665892 |
euclidean_pearson | 43.12674145119401 |
euclidean_spearman | 41.15073497290901 |
main_score | 41.15073385665892 |
manhattan_pearson | 43.016332350517416 |
manhattan_spearman | 40.99128368771293 |
pearson | 40.97674579633659 |
spearman | 41.15073385665892 |
MTEB AmazonCounterfactualClassification (en)
指標タイプ | 指標値 |
---|---|
accuracy | 74.1492537313433 |
ap | 36.58820102143676 |
ap_weighted | 36.58820102143676 |
f1 | 67.93641050300623 |
f1_weighted | 76.47946936836382 |
main_score | 74.1492537313433 |
MTEB AmazonPolarityClassification (default)
指標タイプ | 指標値 |
---|---|
accuracy | 92.57937499999998 |
ap | 89.09881932276382 |
ap_weighted | 89.09881932276382 |
f1 | 92.57389464257594 |
f1_weighted | 92.57389464257594 |
main_score | 92.57937499999998 |
MTEB AmazonReviewsClassification (en)
指標タイプ | 指標値 |
---|---|
accuracy | 47.95399999999999 |
f1 | 45.23480325168402 |
f1_weighted | 45.23480325168403 |
main_score | 47.95399999999999 |
MTEB AmazonReviewsClassification (zh)
指標タイプ | 指標値 |
---|---|
accuracy | 43.916000000000004 |
f1 | 40.79038102586015 |
f1_weighted | 40.79038102586015 |
main_score | 43.916000000000004 |
MTEB ArguAna (default)
指標タイプ | 指標値 |
---|---|
main_score | 55.97299999999999 |
map_at_1 | 31.009999999999998 |
map_at_10 | 46.951 |
map_at_100 | 47.788000000000004 |
map_at_1000 | 47.794 |
map_at_20 | 47.656 |
map_at_3 | 41.69 |
map_at_5 | 44.795 |
mrr_at_1 | 31.57894736842105 |
mrr_at_10 | 47.150336426652245 |
mrr_at_100 | 48.00003421265431 |
mrr_at_1000 | 48.006517491673485 |
mrr_at_20 | 47.86823495425013 |
mrr_at_3 | 41.90374585111427 |
mrr_at_5 | 45.00474158368897 |
nauc_map_at_1000_diff1 | 14.400156277962079 |
nauc_map_at_1000_max | -6.074701279893042 |
nauc_map_at_1000_std | -12.047730490841793 |
nauc_map_at_100_diff1 | 14.400167976253817 |
nauc_map_at_100_max | -6.0697710559623825 |
nauc_map_at_100_std | -12.03623231778573 |
nauc_map_at_10_diff1 | 13.774482728152659 |
nauc_map_at_10_max | -5.112671934691593 |
nauc_map_at_10_std | -11.45598979914733 |
nauc_map_at_1_diff1 | 18.2188090059407 |
nauc_map_at_1_max | -6.90680836409332 |
nauc_map_at_1_std | -11.42044016086847 |
nauc_map_at_20_diff1 | 13.19308743032763 |
nauc_map_at_20_max | -5.925869069550241 |
nauc_map_at_20_std | -12.002174058926709 |
nauc_map_at_3_diff1 | 14.098445595476438 |
nauc_map_at_3_max | -5.438990657735945 |
nauc_map_at_3_std | -13.026198448199588 |
nauc_map_at_5_diff1 | 12.887695825204021 |
nauc_map_at_5_max | -5.527892954283733 |
nauc_map_at_5_std | -12.79674424315614 |
nauc_mrr_at_1000_diff1 | 12.907349893032888 |
nauc_mrr_at_1000_max | -6.476631933744489 |
nauc_mrr_at_1000_std | -12.135655638319898 |
nauc_mrr_at_100_diff1 | 12.90767904668398 |
nauc_mrr_at_100_max | -6.471625560815013 |
nauc_mrr_at_100_std | -12.124160525865376 |
nauc_mrr_at_10_diff1 | 12.898084989549307 |
nauc_mrr_at_10_max | -6.371999485392878 |
nauc_mrr_at_10_std | -12.060712822104344 |
nauc_mrr_at_1_diff1 | 16.534028417854632 |
nauc_mrr_at_1_max | -6.531221880816804 |
nauc_mrr_at_1_std | -11.427032725801363 |
nauc_mrr_at_20_diff1 | 12.772149932536516 |
nauc_mrr_at_20_max | -6.536237532046593 |
nauc_mrr_at_20_std | -12.18322445801735 |
nauc_mrr_at_3_diff1 | 13.294722540439723 |
nauc_mrr_at_3_max | -6.270285589254632 |
nauc_mrr_at_3_std | -12.590739373950477 |
nauc_mrr_at_5_diff1 | 12.701572066028916 |
nauc_mrr_at_5_max | -6.35025779804965 |
nauc_mrr_at_5_std | -12.567997847961006 |
nauc_ndcg_at_1000_diff1 | 14.04477346308097 |
nauc_ndcg_at_1000_max | -5.805803656284627 |
nauc_ndcg_at_1000_std | -11.903389341799974 |
nauc_ndcg_at_100_diff1 | 14.046024694124535 |
nauc_ndcg_at_100_max | -5.638595406841976 |
nauc_ndcg_at_100_std | -11.563718937605266 |
nauc_ndcg_at_10_diff1 | 13.774482728152659 |
nauc_ndcg_at_10_max | -5.112671934691593 |
nauc_ndcg_at_10_std | -11.45598979914733 |
nauc_ndcg_at_1_diff1 | 18.2188090059407 |
nauc_ndcg_at_1_max | -6.90680836409332 |
nauc_ndcg_at_1_std | -11.42044016086847 |
nauc_ndcg_at_20_diff1 | 13.19308743032763 |
nauc_ndcg_at_20_max | -5.925869069550241 |
nauc_ndcg_at_20_std | -12.002174058926709 |
nauc_ndcg_at_3_diff1 | 14.098445595476438 |
nauc_ndcg_at_3_max | -5.438990657735945 |
nauc_ndcg_at_3_std | -13.026198448199588 |
nauc_ndcg_at_5_diff1 | 12.887695825204021 |
nauc_ndcg_at_5_max | -5.527892954283733 |
nauc_ndcg_at_5_std | -12.79674424315614 |
nauc_precision_at_1000_diff1 | 15.720975272424962 |
nauc_precision_at_1000_max | -9.434922353859656 |
nauc_precision_at_1000_std | -12.201774463835351 |
nauc_precision_at_100_diff1 | 14.822568320368415 |
nauc_precision_at_100_max | 16.970591395955335 |
nauc_precision_at_100_std | 34.44303415297543 |
nauc_precision_at_10_diff1 | 10.924572747165758 |
nauc_precision_at_10_max | 0.7245336905113386 |
nauc_precision_at_10_std | -7.246984906362029 |
nauc_precision_at_1_diff1 | 18.2188090059407 |
nauc_precision_at_1_max | -6.90680836409332 |
nauc_precision_at_1_std | -11.42044016086847 |
nauc_precision_at_20_diff1 | -3.338584460694707 |
nauc_precision_at_20_max | -4.566280243136391 |
nauc_precision_at_20_std | -10.006136097038183 |
nauc_precision_at_3_diff1 | 12.491306916226456 |
nauc_precision_at_3_max | -3.939014391748743 |
nauc_precision_at_3_std | -14.18952698929006 |
nauc_precision_at_5_diff1 | 8.856000600248196 |
nauc_precision_at_5_max | -3.5855091847389 |
nauc_precision_at_5_std | -13.869699312071923 |
nauc_recall_at_1000_diff1 | 15.720975272417975 |
nauc_recall_at_1000_max | -9.434922353860903 |
nauc_recall_at_1000_std | -12.201774463832038 |
nauc_recall_at_100_diff1 | 14.822568320369559 |
nauc_recall_at_100_max | 16.970591395954745 |
nauc_recall_at_100_std | 34.443034152975024 |
nauc_recall_at_10_diff1 | 10.924572747165762 |
nauc_recall_at_10_max | 0.724533690511315 |
nauc_recall_at_10_std | -7.246984906362018 |
nauc_recall_at_1_diff1 | 18.2188090059407 |
nauc_recall_at_1_max | -6.90680836409332 |
nauc_recall_at_1_std | -11.42044016086847 |
nauc_recall_at_20_diff1 | -3.3385844606947677 |
nauc_recall_at_20_max | -4.566280243136629 |
nauc_recall_at_20_std | -10.006136097038366 |
nauc_recall_at_3_diff1 | 12.491306916226472 |
nauc_recall_at_3_max | -3.939014391748735 |
nauc_recall_at_3_std | -14.189526989290059 |
nauc_recall_at_5_diff1 | 8.856000600248263 |
nauc_recall_at_5_max | -3.5855091847388603 |
nauc_recall_at_5_std | -13.869699312071909 |
ndcg_at_1 | 31.009999999999998 |
ndcg_at_10 | 55.97299999999999 |
ndcg_at_100 | 59.272000000000006 |
ndcg_at_1000 | 59.407 |
ndcg_at_20 | 58.449 |
ndcg_at_3 | 45.227000000000004 |
ndcg_at_5 | 50.792 |
precision_at_1 | 31.009999999999998 |
precision_at_10 | 8.485 |
precision_at_100 | 0.9860000000000001 |
precision_at_1000 | 0.1 |
precision_at_20 | 4.723 |
precision_at_3 | 18.492 |
precision_at_5 | 13.783999999999999 |
recall_at_1 | 31.009999999999998 |
recall_at_10 | 84.851 |
recall_at_100 | 98.649 |
recall_at_1000 | 99.644 |
recall_at_20 | 94.452 |
recall_at_3 | 55.477 |
recall_at_5 | 68.919 |
MTEB ArxivClusteringP2P (default)
指標タイプ | 指標値 |
---|---|
main_score | 48.31683216128774 |
v_measure | 48.31683216128774 |
v_measure_std | 13.795207109799703 |
MTEB ArxivClusteringS2S (default)
指標タイプ | 指標値 |
---|---|
main_score | 40.2951016935384 |
v_measure | 40.2951016935384 |
v_measure_std | 14.193710444297869 |
MTEB AskUbuntuDupQuestions (default)
指標タイプ | 指標値 |
---|---|
main_score | 60.45095169935259 |
map | 60.45095169935259 |
mrr | 73.43567251461988 |
nAUC_map_diff1 | 15.357222913791704 |
nAUC_map_max | 24.301239659848346 |
nAUC_map_std | 18.26732583044278 |
nAUC_mrr_diff1 | 24.108010981589057 |
nAUC_mrr_max | 34.90261214387396 |
nAUC_mrr_std | 20.350034497982126 |
MTEB BIOSSES (default)
指標タイプ | 指標値 |
---|---|
cosine_pearson | 90.16604991710759 |
cosine_spearman | 88.4670760233051 |
euclidean_pearson | 89.02378164860428 |
euclidean_spearman | 88.4670760233051 |
main_score | 88.4670760233051 |
manhattan_pearson | 88.8866912507422 |
manhattan_spearman | 88.2755053931781 |
pearson | 90.16604991710759 |
spearman | 88.4670760233051 |
MTEB BQ (default) (test)
指標タイプ | 指標値 |
---|---|
cosine_pearson | 49.45233904713201 |
cosine_spearman | 49.77342815602789 |
euclidean_pearson | 49.13579036236359 |
euclidean_spearman | 49.77342122767529 |
main_score | 49.77342815602789 |
manhattan_pearson | 49.01322677955527 |
manhattan_spearman | 49.702538779772226 |
pearson | 49.45233904713201 |
spearman | 49.77342815602789 |
MTEB BQ (default) (validation)
指標タイプ | 指標値 |
---|---|
cosine_pearson | 53.43473222697715 |
cosine_spearman | 54.24325202324013 |
euclidean_pearson | 53.4053341221681 |
euclidean_spearman | 54.2432485591385 |
main_score | 54.24325202324013 |
manhattan_pearson | 53.31602762068146 |
manhattan_spearman | 54.180811590825925 |
pearson | 53.43473222697715 |
spearman | 54.24325202324013 |
MTEB Banking77Classification (default)
指標タイプ | 指標値 |
---|---|
accuracy | 82.11038961038962 |
f1 | 81.50275371635729 |
f1_weighted | 81.50275371635732 |
main_score | 82.11038961038962 |
MTEB BiorxivClusteringP2P (default)
指標タイプ | 指標値 |
---|---|
main_score | 39.85718105201471 |
v_measure | 39.85718105201471 |
v_measure_std | 0.9098592525717781 |
MTEB BiorxivClusteringS2S (default)
指標タイプ | 指標値 |
---|---|
main_score | 34.901371726743854 |
v_measure | 34.901371726743854 |
v_measure_std | 0.49131958662099773 |
MTEB CLSClusteringP2P (default)
指標タイプ | 指標値 |
---|---|
main_score | 42.580911514601844 |
v_measure | 42.580911514601844 |
v_measure_std | 1.3262494874619402 |
MTEB CLSClusteringS2S (default)
指標タイプ | 指標値 |
---|---|
main_score | 38.36369670561906 |
v_measure | 38.36369670561906 |
v_measure_std | 1.3030031287521193 |
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98