Gte Large Zh GGUF
このモデルはllama.cppを使用してthenlper/gte-large-zhから変換されたGGUF形式のモデルで、主に中国語テキストの埋め込みと文の類似度計算に使用されます。
ダウンロード数 37
リリース時間 : 2/14/2025
モデル概要
thenlper/gte-large-zhを基に変換されたGGUF形式のモデルで、中国語テキストの埋め込みと様々な自然言語処理タスクをサポートします。
モデル特徴
マルチタスク評価基準
様々な中国語自然言語処理タスクで包括的な評価が行われています
文埋め込み
高品質な文埋め込み表現を生成できます
GGUF形式サポート
llama.cppフレームワークを通じて効率的な推論をサポートします
モデル能力
意味的テキスト類似度計算
テキスト分類
情報検索
再ランキング
テキストクラスタリング
文ペア分類
使用事例
意味類似度
質問応答システム
質問と候補回答間の意味的類似度を計算
MTEB AFQMCデータセットで48.94のコサイン類似度ピアソン係数を達成
テキストマッチング
2つの文が同じ意味を表しているか判断
MTEB LCQMCデータセットで69.51のコサイン類似度ピアソン係数を達成
情報検索
医療QA検索
医療知識ベースから関連回答を検索
MTEB CmedqaRetrievalデータセットで上位10適合率(MAP@10)36.50%を達成
EC商品検索
ユーザークエリに基づき関連商品を検索
MTEB EcomRetrievalデータセットで上位10適合率(MAP@10)62.17%を達成
テキスト分類
感情分析
テキストの感情傾向を判断
MTEB多言語感情分析データセットで76.48%の精度を達成
意図認識
ユーザー入力の意図カテゴリを識別
MTEB Massive意図分類(中国語)データセットで73.31%の精度を達成
🚀 gte-large-zh
このモデルは、STSや分類、検索などの様々な自然言語処理タスクにおいて評価されています。thenlper/gte-large-zh
をベースモデルとしており、MITライセンスの下で公開されています。
📚 ドキュメント
モデル情報
属性 | 详情 |
---|---|
モデルタイプ | gte-large-zh |
訓練データ | 未記載 |
ベースモデル | thenlper/gte-large-zh |
ライセンス | MIT |
タスク別評価結果
1. STS (Semantic Textual Similarity) タスク
- MTEB AFQMC:
- 検証セットで評価。
- 評価指標:
- cos_sim_pearson: 48.94131905219026
- cos_sim_spearman: 54.58261199731436
- euclidean_pearson: 52.73929210805982
- euclidean_spearman: 54.582632097533676
- manhattan_pearson: 52.73123295724949
- manhattan_spearman: 54.572941830465794
- MTEB ATEC:
- テストセットで評価。
- 評価指標:
- cos_sim_pearson: 47.292931669579005
- cos_sim_spearman: 54.601019783506466
- euclidean_pearson: 54.61393532658173
- euclidean_spearman: 54.60101865708542
- manhattan_pearson: 54.59369555606305
- manhattan_spearman: 54.601098593646036
- MTEB BQ:
- テストセットで評価。
- 評価指標:
- cos_sim_pearson: 62.55033151404683
- cos_sim_spearman: 64.40573802644984
- euclidean_pearson: 62.93453281081951
- euclidean_spearman: 64.40574149035828
- manhattan_pearson: 62.839969210895816
- manhattan_spearman: 64.30837945045283
- MTEB LCQMC:
- テストセットで評価。
- 評価指標:
- cos_sim_pearson: 69.50947272908907
- cos_sim_spearman: 74.40054474949213
- euclidean_pearson: 73.53007373987617
- euclidean_spearman: 74.40054474732082
- manhattan_pearson: 73.51396571849736
- manhattan_spearman: 74.38395696630835
- MTEB PAWSX:
- テストセットで評価。
- 評価指標:
- cos_sim_pearson: 35.301730226895955
- cos_sim_spearman: 38.54612530948101
- euclidean_pearson: 39.02831131230217
- euclidean_spearman: 38.54612530948101
- manhattan_pearson: 39.04765584936325
- manhattan_spearman: 38.54455759013173
- MTEB QBQTC:
- テストセットで評価。
- 評価指標:
- cos_sim_pearson: 32.27907454729754
- cos_sim_spearman: 33.35945567162729
- euclidean_pearson: 31.997628193815725
- euclidean_spearman: 33.3592386340529
- manhattan_pearson: 31.97117833750544
- manhattan_spearman: 33.30857326127779
- MTEB STS22 (zh):
- テストセットで評価。
- 評価指標:
- cos_sim_pearson: 62.53712784446981
- cos_sim_spearman: 62.975074386224286
- euclidean_pearson: 61.791207731290854
- euclidean_spearman: 62.975073716988064
2. 分類タスク
- MTEB AmazonReviewsClassification (zh):
- テストセットで評価。
- 評価指標:
- accuracy: 47.233999999999995
- f1: 45.68998446563349
- MTEB IFlyTek:
- 検証セットで評価。
- 評価指標:
- accuracy: 49.60369372835706
- f1: 38.24016248875209
- MTEB JDReview:
- テストセットで評価。
- 評価指標:
- accuracy: 86.71669793621012
- ap: 55.75807094995178
- f1: 81.59033162805417
- MTEB MassiveIntentClassification (zh - CN):
- テストセットで評価。
- 評価指標:
- accuracy: 73.30531271015468
- f1: 70.88091430578575
- MTEB MassiveScenarioClassification (zh - CN):
- テストセットで評価。
- 評価指標:
- accuracy: 75.7128446536651
- f1: 75.06125593532262
- MTEB MultilingualSentiment:
- 検証セットで評価。
- 評価指標:
- accuracy: 76.47666666666667
- f1: 76.4808576632057
- MTEB OnlineShopping:
- テストセットで評価。
- 評価指標:
- accuracy: 92.68
- ap: 90.78652757815115
- f1: 92.67153098230253
3. 検索タスク
- MTEB CmedqaRetrieval:
- 開発セットで評価。
- 評価指標:
- map_at_1: 24.215
- map_at_10: 36.498000000000005
- map_at_100: 38.409
- map_at_1000: 38.524
- map_at_3: 32.428000000000004
- map_at_5: 34.664
- mrr_at_1: 36.834
- mrr_at_10: 45.196
- mrr_at_100: 46.214
- mrr_at_1000: 46.259
- mrr_at_3: 42.631
- mrr_at_5: 44.044
- ndcg_at_1: 36.834
- ndcg_at_10: 43.146
- ndcg_at_100: 50.632999999999996
- ndcg_at_1000: 52.608999999999995
- ndcg_at_3: 37.851
- ndcg_at_5: 40.005
- precision_at_1: 36.834
- precision_at_10: 9.647
- precision_at_100: 1.574
- precision_at_1000: 0.183
- precision_at_3: 21.48
- precision_at_5: 15.649
- recall_at_1: 24.215
- recall_at_10: 54.079
- recall_at_100: 84.943
- recall_at_1000: 98.098
- recall_at_3: 38.117000000000004
- recall_at_5: 44.775999999999996
- MTEB CovidRetrieval:
- 開発セットで評価。
- 評価指標:
- map_at_1: 78.583
- map_at_10: 85.613
- map_at_100: 85.777
- map_at_1000: 85.77900000000001
- map_at_3: 84.58
- map_at_5: 85.22800000000001
- mrr_at_1: 78.925
- mrr_at_10: 85.667
- mrr_at_100: 85.822
- mrr_at_1000: 85.824
- mrr_at_3: 84.651
- mrr_at_5: 85.299
- ndcg_at_1: 78.925
- ndcg_at_10: 88.405
- ndcg_at_100: 89.02799999999999
- ndcg_at_1000: 89.093
- ndcg_at_3: 86.393
- ndcg_at_5: 87.5
- precision_at_1: 78.925
- precision_at_10: 9.789
- precision_at_100: 1.005
- precision_at_1000: 0.101
- precision_at_3: 30.769000000000002
- precision_at_5: 19.031000000000002
- recall_at_1: 78.583
- recall_at_10: 96.891
- recall_at_100: 99.473
- recall_at_1000: 100.0
- recall_at_3: 91.438
- recall_at_5: 94.152
- MTEB DuRetrieval:
- 開発セットで評価。
- 評価指標:
- map_at_1: 25.604
- map_at_10: 77.171
- map_at_100: 80.033
- map_at_1000: 80.099
- map_at_3: 54.364000000000004
- map_at_5: 68.024
- mrr_at_1: 89.85
- mrr_at_10: 93.009
- mrr_at_100: 93.065
- mrr_at_1000: 93.068
- mrr_at_3: 92.72500000000001
- mrr_at_5: 92.915
- ndcg_at_1: 89.85
- ndcg_at_10: 85.038
- ndcg_at_100: 88.247
- ndcg_at_1000: 88.837
- ndcg_at_3: 85.20299999999999
- ndcg_at_5: 83.47
- precision_at_1: 89.85
- precision_at_10: 40.275
- precision_at_100: 4.709
- precision_at_1000: 0.486
- precision_at_3: 76.36699999999999
- precision_at_5: 63.75999999999999
- recall_at_1: 25.604
- recall_at_10: 85.423
- recall_at_100: 95.695
- recall_at_1000: 98.669
- recall_at_3: 56.737
- recall_at_5: 72.646
- MTEB EcomRetrieval:
- 開発セットで評価。
- 評価指標:
- map_at_1: 51.800000000000004
- map_at_10: 62.17
- map_at_100: 62.649
- map_at_1000: 62.663000000000004
- map_at_3: 59.699999999999996
- map_at_5: 61.23499999999999
- mrr_at_1: 51.800000000000004
- mrr_at_10: 62.17
- mrr_at_100: 62.649
- mrr_at_1000: 62.663000000000004
- mrr_at_3: 59.699999999999996
- mrr_at_5: 61.23499999999999
- ndcg_at_1: 51.800000000000004
- ndcg_at_10: 67.246
- ndcg_at_100: 69.58
- ndcg_at_1000: 69.925
- ndcg_at_3: 62.197
- ndcg_at_5: 64.981
- precision_at_1: 51.800000000000004
- precision_at_10: 8.32
- precision_at_100: 0.941
- precision_at_1000: 0.097
- precision_at_3: 23.133
- precision_at_5: 15.24
- recall_at_1: 51.800000000000004
- recall_at_10: 83.2
- recall_at_100: 94.1
- recall_at_1000: 96.8
- recall_at_3: 69.39999999999999
- recall_at_5: 76.2
- MTEB MMarcoRetrieval:
- 開発セットで評価。
- 評価指標:
- map_at_1: 64.685
- map_at_10: 73.803
- map_at_100: 74.153
- map_at_1000: 74.167
- map_at_3: 71.98
- map_at_5: 73.21600000000001
- mrr_at_1: 66.891
- mrr_at_10: 74.48700000000001
- mrr_at_100: 74.788
- mrr_at_1000: 74.801
- mrr_at_3: 72.918
- mrr_at_5: 73.965
- ndcg_at_1: 66.891
- ndcg_at_10: 77.534
- ndcg_at_100: 79.106
- ndcg_at_1000: 79.494
- ndcg_at_3: 74.13499999999999
- ndcg_at_5: 76.20700000000001
- precision_at_1: 66.891
- precision_at_10: 9.375
- precision_at_100: 1.0170000000000001
- precision_at_1000: 0.105
- precision_at_3: 27.932000000000002
- precision_at_5: 17.86
- recall_at_1: 64.685
- recall_at_10: 88.298
- recall_at_100: 95.426
- recall_at_1000: 98.48700000000001
- recall_at_3: 79.44200000000001
- recall_at_5: 84.358
- MTEB MedicalRetrieval:
- 開発セットで評価。
- 評価指標:
- map_at_1: 52.7
- map_at_10: 59.532
- map_at_100: 60.085
- map_at_1000: 60.126000000000005
- map_at_3: 57.767
- map_at_5: 58.952000000000005
- mrr_at_1: 52.900000000000006
- mrr_at_10: 59.648999999999994
- mrr_at_100: 60.20100000000001
- mrr_at_1000: 60.242
- mrr_at_3: 57.882999999999996
- mrr_at_5: 59.068
- ndcg_at_1: 52.7
- ndcg_at_10: 62.883
- ndcg_at_100: 65.714
- ndcg_at_1000: 66.932
- ndcg_at_3: 59.34700000000001
- ndcg_at_5: 61.486
- precision_at_1: 52.7
- precision_at_10: 7.340000000000001
- precision_at_100: 0.8699999999999999
- precision_at_1000: 0.097
- precision_at_3: 21.3
- precision_at_5: 13.819999999999999
- recall_at_1: 52.7
- recall_at_10: 73.4
- recall_at_100: 87.0
- recall_at_1000: 96.8
- recall_at_3: 63.9
- recall_at_5: 69.1
4. 再ランキングタスク
- MTEB CMedQAv1:
- テストセットで評価。
- 評価指標:
- map: 86.09191911031553
- mrr: 88.6747619047619
- MTEB CMedQAv2:
- テストセットで評価。
- 評価指標:
- map: 86.45781885502122
- mrr: 89.01591269841269
- MTEB MMarcoReranking:
- 開発セットで評価。
- 評価指標:
- map: 31.188333827724108
- mrr: 29.84801587301587
5. ペア分類タスク
- MTEB Cmnli:
- 検証セットで評価。
- 評価指標:
- cos_sim_accuracy: 82.51352976548407
- cos_sim_ap: 89.49905141462749
- cos_sim_f1: 83.89334489486234
- cos_sim_precision: 78.19761567993534
- cos_sim_recall: 90.48398410100538
- dot_accuracy: 82.51352976548407
- dot_ap: 89.49108293121158
- dot_f1: 83.89334489486234
- dot_precision: 78.19761567993534
- dot_recall: 90.48398410100538
- euclidean_accuracy: 82.51352976548407
- euclidean_ap: 89.49904709975154
- euclidean_f1: 83.89334489486234
- euclidean_precision: 78.19761567993534
- euclidean_recall: 90.48398410100538
- manhattan_accuracy: 82.48947684906794
- manhattan_ap: 89.49231995962901
- manhattan_f1: 83.84681215233205
- manhattan_precision: 77.28258726089528
- manhattan_recall: 91.62964694879588
- max_accuracy: 82.51352976548407
- max_ap: 89.49905141462749
- max_f1: 83.89334489486234
- MTEB Ocnli:
- 検証セットで評価。
- 評価指標:
- cos_sim_accuracy: 77.58527341635084
- cos_sim_ap: 79.32131557636497
- cos_sim_f1: 80.51948051948052
- cos_sim_precision: 71.7948717948718
- cos_sim_recall: 91.65786694825766
- dot_accuracy: 77.58527341635084
- dot_ap: 79.32131557636497
- dot_f1: 80.51948051948052
- dot_precision: 71.7948717948718
- dot_recall: 91.65786694825766
- euclidean_accuracy: 77.58527341635084
- euclidean_ap: 79.32131557636497
- euclidean_f1: 80.51948051948052
- euclidean_precision: 71.7948717948718
- euclidean_recall: 91.65786694825766
- manhattan_accuracy: 77.15213860314023
- manhattan_ap: 79.26178519246496
- manhattan_f1: 80.22028453418999
- manhattan_precision: 70.94155844155844
- manhattan_recall: 92.29144667370645
- max_accuracy: 77.58527341635084
- max_ap: 79.32131557636497
- max_f1: 80.51948051948052
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98