Giga Embeddings Instruct
模型概述
該模型主要用於文本嵌入和分類任務,能夠高效處理亞馬遜產品評論等文本數據,支持多種語言和複雜查詢場景。
模型特點
高準確率分類
在亞馬遜反事實分類任務中達到94.5%的準確率
強大檢索能力
在ArguAna檢索任務中表現出色,支持複雜查詢場景
多指標優化
同時優化準確率、F1分數和平均精度等多個性能指標
模型能力
文本分類
信息檢索
情感分析
文本嵌入
使用案例
電子商務
產品評論分類
對亞馬遜產品評論進行正負面分類
在亞馬遜極性分類任務中達到94.3%的準確率
反事實評論檢測
識別亞馬遜平臺上的反事實評論
在en-ext配置下達到94.5%的準確率
信息檢索
論點檢索
在ArguAna數據集上進行論點相關性檢索
前10位NDCG達到53.23
模型索引:
- 名稱:giga-embeddings-instruct
結果:
- 數據集:
配置:en-ext
名稱:MTEB亞馬遜反事實分類(en-ext)
版本:e8379541af4e31359cca9fbcf4b00f2671dba205
分割:測試
類型:mteb/amazon_counterfactual
指標:
- 類型:準確率 值:94.5352323838081
- 類型:平均精度 值:62.422648408367344
- 類型:加權平均精度 值:62.422648408367344
- 類型:F1分數 值:87.13103677336655
- 類型:加權F1分數 值:94.85637995412655
- 類型:主要得分 值:94.5352323838081 任務: 類型:分類
- 數據集:
配置:en
名稱:MTEB亞馬遜反事實分類(en)
版本:e8379541af4e31359cca9fbcf4b00f2671dba205
分割:測試
類型:mteb/amazon_counterfactual
指標:
- 類型:準確率 值:90.31343283582089
- 類型:平均精度 值:63.42364739316405
- 類型:加權平均精度 值:63.42364739316405
- 類型:F1分數 值:85.54214552412623
- 類型:加權F1分數 值:90.59539168268289
- 類型:主要得分 值:90.31343283582089 任務: 類型:分類
- 數據集:
配置:默認
名稱:MTEB亞馬遜極性分類(默認)
版本:e2d317d38cd51312af73b3d32a06d1a08b442046
分割:測試
類型:mteb/amazon_polarity
指標:
- 類型:準確率 值:94.29605000000001
- 類型:平均精度 值:91.30887530384256
- 類型:加權平均精度 值:91.30887530384256
- 類型:F1分數 值:94.29070662237378
- 類型:加權F1分數 值:94.29070662237378
- 類型:主要得分 值:94.29605000000001 任務: 類型:分類
- 數據集:
配置:默認
名稱:MTEB ArguAna(默認)
版本:c22ab2a51041ffd869aaddef7af8d8215647e41a
分割:測試
類型:mteb/arguana
指標:
- 類型:主要得分 值:53.227999999999994
- 類型:前1位平均精度 值:27.595999999999997
- 類型:前10位平均精度 值:43.756
- 類型:前100位平均精度 值:44.674
- 類型:前1000位平均精度 值:44.675
- 類型:前20位平均精度 值:44.511
- 類型:前3位平均精度 值:38.312000000000005
- 類型:前5位平均精度 值:41.271
- 類型:前1位平均倒數排名 值:27.951635846372692
- 類型:前10位平均倒數排名 值:43.8683138025244
- 類型:前100位平均倒數排名 值:44.79916793634115
- 類型:前1000位平均倒數排名 值:44.800641832434614
- 類型:前20位平均倒數排名 值:44.63636850959653
- 類型:前3位平均倒數排名 值:38.383119962067305
- 類型:前5位平均倒數排名 值:41.41299193930774
- 類型:NAUC前1000位平均精度差異1 值:6.936710279308449
- 類型:NAUC前1000位平均精度最大值 值:-16.426102328143827
- 類型:NAUC前1000位平均精度標準差 值:-18.408713623781154
- 類型:NAUC前100位平均精度差異1 值:6.936900325690782
- 類型:NAUC前100位平均精度最大值 值:-16.424599448813982
- 類型:NAUC前100位平均精度標準差 值:-18.41002427519262
- 類型:NAUC前10位平均精度差異1 值:6.686089466049945
- 類型:NAUC前10位平均精度最大值 值:-16.277854443721235
- 類型:NAUC前10位平均精度標準差 值:-18.533367246025183
- 類型:NAUC前1位平均精度差異1 值:10.048892770421086
- 類型:NAUC前1位平均精度最大值 值:-18.88033774058785
- 類型:NAUC前1位平均精度標準差 值:-18.950654138263662
- 類型:NAUC前20位平均精度差異1 值:6.896257398324564
- 類型:NAUC前20位平均精度最大值 值:-16.28720522758851
- 類型:NAUC前20位平均精度標準差 值:-18.463554340157874
- 類型:NAUC前3位平均精度差異1 值:6.996349008138944
- 類型:NAUC前3位平均精度最大值 值:-16.895326699141894
- 類型:NAUC前3位平均精度標準差 值:-18.550696483491105
- 類型:NAUC前5位平均精度差異1 值:6.652257808997529
- 類型:NAUC前5位平均精度最大值 值:-16.616340120756664
- 類型:NAUC前5位平均精度標準差 值:-18.750380766744815
- 類型:NAUC前1000位平均倒數排名差異1 值:5.675242976111991
- 類型:NAUC前1000位平均倒數排名最大值 值:-16.992812047837067
- 類型:NAUC前1000位平均倒數排名標準差 值:-18.32929497132872
- 類型:NAUC前100位平均倒數排名差異1 值:5.6754937777142835
- 類型:NAUC前100位平均倒數排名最大值 值:-16.991287123334946
- 類型:NAUC前100位平均倒數排名標準差 值:-18.330604638796043
- 類型:NAUC前10位平均倒數排名差異1 值:5.392768177635316
- 類型:NAUC前10位平均倒數排名最大值 值:-16.891663162548255
- 類型:NAUC前10位平均倒數排名標準差 值:-18.471864534496945
- 類型:NAUC前1位平均倒數排名差異1 值:8.923777873913467
- 類型:NAUC前1位平均倒數排名最大值 值:-18.81665268664494
- 類型:NAUC前1位平均倒數排名標準差 值:-18.819665466571674
- 類型:NAUC前20位平均倒數排名差異1 值:5.641752338928701
- 類型:NAUC前20位平均倒數排名最大值 值:-16.85136568990159
- 類型:NAUC前20位平均倒數排名標準差 值:-18.384362648232546
- 類型:NAUC前3位平均倒數排名差異1 值:5.524316132813568
- 類型:NAUC前3位平均倒數排名最大值 值:-17.723568343459988
- 類型:NAUC前3位平均倒數排名標準差 值:-18.372688451025656
- 類型:NAUC前5位平均倒數排名差異1 值:5.414405183203325
- 類型:NAUC前5位平均倒數排名最大值 值:-17.288127460794154
- 類型:NAUC前5位平均倒數排名標準差 值:-18.71123050851349
- 類型:NAUC前1000位歸一化折損累積增益差異1 值:6.487802962417493
- 類型:NAUC前1000位歸一化折損累積增益最大值 值:-15.76159401306176
- 類型:NAUC前1000位歸一化折損累積增益標準差 值:-18.15838595665605
- 類型:NAUC前100位歸一化折損累積增益差異1 值:6.48323468898899
- 類型:NAUC前100位歸一化折損累積增益最大值 值:-15.728467477722477
- 類型:NAUC前100位歸一化折損累積增益標準差 值:-18.197384218078643
- 類型:NAUC前10位歸一化折損累積增益差異1 值:5.423448018411026
- 類型:NAUC前10位歸一化折損累積增益最大值 值:-14.673502378215453
- 類型:NAUC前10位歸一化折損累積增益標準差 值:-18.837931889895316
- 類型:NAUC前1位歸一化折損累積增益差異1 值:10.048892770421086
- 類型:NAUC前1位歸一化折損累積增益最大值 值:-18.88033774058785
- 類型:NAUC前1位歸一化折損累積增益標準差 值:-18.950654138263662
- 類型:NAUC前20位歸一化折損累積增益差異1 值:6.369954849420038
- 類型:NAUC前20位歸一化折損累積增益最大值 值:-14.443991776264713
- 類型:NAUC前20位歸一化折損累積增益標準差 值:-18.416264332865836
- 類型:NAUC前3位歸一化折損累積增益差異1 值:6.224331563078568
- 類型:NAUC前3位歸一化折損累積增益最大值 值:-16.183370694913553
- 類型:NAUC前3位歸一化折損累積增益標準差 值:-18.559481650690337
- 類型:NAUC前5位歸一化折損累積增益差異1 值:5.659342042143408
- 類型:NAUC前5位歸一化折損累積增益最大值 值:-15.510631438356693
- 類型:NAUC前5位歸一化折損累積增益標準差 值:-18.909647623269873
- 類型:NAUC前1000位精確率差異1 值:-45.740924328524436
- 類型:NAUC前1000位精確率最大值 值:-4.436745319184523
- 類型:NAUC前1000位精確率標準差 值:57.94428979357973
- 類型:NAUC前100位精確率差異1 值:-23.751971897164438
- 類型:NAUC前100位精確率最大值 值:0.5109176204949021
- 類型:NAUC前100位精確率標準差 值:14.133130213074722
- 類型:NAUC前10位精確率差異1 值:-2.2741922400170953
- 類型:NAUC前10位精確率最大值 值:-4.695134136659869
- 類型:NAUC前10位精確率標準差 值:-21.566024184206757
- 類型:NAUC前1位精確率差異1 值:10.048892770421086
- 類型:NAUC前1位精確率最大值 值:-18.88033774058785
- 類型:NAUC前1位精確率標準差 值:-18.950654138263662
- 類型:NAUC前20位精確率差異1 值:2.366832261816588
- 類型:NAUC前20位精確率最大值 值:17.078759245976265
- 類型:NAUC前20位精確率標準差 值:-17.573684824976628
- 類型:NAUC前3位精確率差異1 值:4.062538060385958
- 類型:NAUC前3位精確率最大值 值:-14.10949953336873
- 類型:NAUC前3位精確率標準差 值:-18.626114079282416
- 類型:NAUC前5位精確率差異1 值:2.425834990396102
- 類型:NAUC前5位精確率最大值 值:-11.600278541101094
- 類型:NAUC前5位精確率標準差 值:-19.53326796179894
- 類型:NAUC前1000位召回率差異1 值:-45.740924328527974
- 類型:NAUC前1000位召回率最大值 值:-4.4367453191877555
- 類型:NAUC前1000位召回率標準差 值:57.9442897935769
- 類型:NAUC前100位召回率差異1 值:-23.751971897160466
- 類型:NAUC前100位召回率最大值 值:0.5109176204928446
- 類型:NAUC前100位召回率標準差 值:14.133130213071956
- 類型:NAUC前10位召回率差異1 值:-2.2741922400170527
- 類型:NAUC前10位召回率最大值 值:-4.695134136659742
- 類型:NAUC前10位召回率標準差 值:-21.566024184206647
- 類型:NAUC前1位召回率差異1 值:10.048892770421086
- 類型:NAUC前1位召回率最大值 值:-18.88033774058785
- 類型:NAUC前1位召回率標準差 值:-18.950654138263662
- 類型:NAUC前20位召回率差異1 值:2.366832261816872
- 類型:NAUC前20位召回率最大值 值:17.078759245976432
- 類型:NAUC前20位召回率標準差 值:-17.57368482497646
- 類型:NAUC前3位召回率差異1 值:4.0625380603860055
- 類型:NAUC前3位召回率最大值 值:-14.10949953336872
- 類型:NAUC前3位召回率標準差 值:-18.626114079282395
- 類型:NAUC前5位召回率差異1 值:2.425834990396135
- 類型:NAUC前5位召回率最大值 值:-11.60027854110106
- 類型:NAUC前5位召回率標準差 值:-19.533267961798924
- 類型:前1位歸一化折損累積增益 值:27.595999999999997
- 類型:前10位歸一化折損累積增益 值:53.227999999999994
- 類型:前100位歸一化折損累積增益 值:56.931
- 類型:前1000位歸一化折損累積增益 值:56.967999999999996
- 類型:前20位歸一化折損累積增益 值:55.921
- 類型:前3位歸一化折損累積增益 值:41.908
- 類型:前5位歸一化折損累積增益 值:47.285
- 類型:前1位精確率 值:27.595999999999997
- 數據集:
配置:en-ext
名稱:MTEB亞馬遜反事實分類(en-ext)
版本:e8379541af4e31359cca9fbcf4b00f2671dba205
分割:測試
類型:mteb/amazon_counterfactual
指標:
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98