Granite Embedding 30m English
G
Granite Embedding 30m English
由ibm-granite開發
IBM Granite Embedding 30M English 是一個基於 transformer 架構的英文文本嵌入模型,由 IBM 開發併發布。
下載量 78.53k
發布時間 : 12/4/2024
模型概述
該模型主要用於生成高質量的英文文本嵌入,適用於多種自然語言處理任務,如文本分類、信息檢索等。
模型特點
高質量文本嵌入
能夠生成高質量的英文文本嵌入,適用於多種下游任務。
多任務支持
在多種自然語言處理任務上表現良好,包括文本分類和信息檢索。
輕量級
模型參數規模為30M,相對輕量,適合資源有限的環境。
模型能力
文本嵌入生成
文本分類
信息檢索
使用案例
電子商務
亞馬遜評論分類
用於對亞馬遜商品評論進行分類,識別正面和負面評價。
在MTEB AmazonPolarityClassification數據集上準確率為62.98%。
信息檢索
應用檢索
用於檢索相關應用,提升搜索結果的相關性。
在MTEB AppsRetrieval數據集上NDCG@10為6.20。
語言:
- 英文 許可證: apache-2.0 庫名稱: sentence-transformers 標籤:
- 語言
- granite
- 嵌入
- mteb
- transformers 模型索引:
- 名稱: ibm-granite/granite-embedding-30m-english
結果:
- 數據集:
配置: en-ext
名稱: MTEB AmazonCounterfactualClassification (en-ext)
版本: e8379541af4e31359cca9fbcf4b00f2671dba205
分割: 測試
類型: mteb/amazon_counterfactual
指標:
- 類型: 準確率 值: 62.856100000000005
- 類型: f1 值: 51.5046
- 類型: 加權f1 值: 69.9775
- 類型: ap 值: 15.4995
- 類型: 加權ap 值: 15.4995
- 類型: 主要分數 值: 62.856100000000005 任務: 類型: 分類
- 數據集:
配置: en
名稱: MTEB AmazonCounterfactualClassification (en)
版本: e8379541af4e31359cca9fbcf4b00f2671dba205
分割: 測試
類型: mteb/amazon_counterfactual
指標:
- 類型: 準確率 值: 60.925399999999996
- 類型: f1 值: 55.0092
- 類型: 加權f1 值: 64.8014
- 類型: ap 值: 25.0517
- 類型: 加權ap 值: 25.0517
- 類型: 主要分數 值: 60.925399999999996 任務: 類型: 分類
- 數據集:
配置: 默認
名稱: MTEB AmazonPolarityClassification (默認)
版本: e2d317d38cd51312af73b3d32a06d1a08b442046
分割: 測試
類型: mteb/amazon_polarity
指標:
- 類型: 準確率 值: 62.983599999999996
- 類型: f1 值: 62.553599999999996
- 類型: 加權f1 值: 62.553599999999996
- 類型: ap 值: 58.3423
- 類型: 加權ap 值: 58.3423
- 類型: 主要分數 值: 62.983599999999996 任務: 類型: 分類
- 數據集:
配置: en
名稱: MTEB AmazonReviewsClassification (en)
版本: 1399c76144fd37290681b995c656ef9b2e06e26d
分割: 測試
類型: mteb/amazon_reviews_multi
指標:
- 類型: 準確率 值: 32.178000000000004
- 類型: f1 值: 31.5201
- 類型: 加權f1 值: 31.5201
- 類型: 主要分數 值: 32.178000000000004 任務: 類型: 分類
- 數據集:
配置: 默認
名稱: MTEB AppsRetrieval (默認)
版本: f22508f96b7a36c2415181ed8bb76f76e04ae2d5
分割: 測試
類型: CoIR-Retrieval/apps
指標:
- 類型: ndcg_at_1 值: 3.5060000000000002
- 類型: ndcg_at_3 值: 4.789000000000001
- 類型: ndcg_at_5 值: 5.314
- 類型: ndcg_at_10 值: 6.203
- 類型: ndcg_at_20 值: 6.801
- 類型: ndcg_at_100 值: 8.588
- 類型: ndcg_at_1000 值: 12.418999999999999
- 類型: map_at_1 值: 3.5060000000000002
- 類型: map_at_3 值: 4.471
- 類型: map_at_5 值: 4.7620000000000005
- 類型: map_at_10 值: 5.117
- 類型: map_at_20 值: 5.281000000000001
- 類型: map_at_100 值: 5.501
- 類型: map_at_1000 值: 5.611
- 類型: recall_at_1 值: 3.5060000000000002
- 類型: recall_at_3 值: 5.71
- 類型: recall_at_5 值: 6.984999999999999
- 類型: recall_at_10 值: 9.801
- 類型: recall_at_20 值: 12.165
- 類型: recall_at_100 值: 22.205
- 類型: recall_at_1000 值: 54.396
- 類型: precision_at_1 值: 3.5060000000000002
- 類型: precision_at_3 值: 1.9029999999999998
- 類型: precision_at_5 值: 1.397
- 類型: precision_at_10 值: 0.98
- 類型: precision_at_20 值: 0.608
- 類型: precision_at_100 值: 0.22200000000000003
- 類型: precision_at_1000 值: 0.054
- 類型: mrr_at_1 值: 3.5060000000000002
- 類型: mrr_at_3 值: 4.471
- 類型: mrr_at_5 值: 4.7618
- 類型: mrr_at_10 值: 5.1166
- 類型: mrr_at_20 值: 5.2806
- 類型: mrr_at_100 值: 5.5014
- 類型: mrr_at_1000 值: 5.6113
- 類型: nauc_ndcg_at_1_max 值: 32.8089
- 類型: nauc_ndcg_at_1_std 值: 13.0518
- 類型: nauc_ndcg_at_1_diff1 值: 44.3602
- 類型: nauc_ndcg_at_3_max 值: 28.5037
- 類型: nauc_ndcg_at_3_std 值: 12.1308
- 類型: nauc_ndcg_at_3_diff1 值: 33.0191
- 類型: nauc_ndcg_at_5_max 值: 25.970100000000002
- 類型: nauc_ndcg_at_5_std 值: 12.089500000000001
- 類型: nauc_ndcg_at_5_diff1 值: 30.098200000000002
- 類型: nauc_ndcg_at_10_max 值: 23.9177
- 類型: nauc_ndcg_at_10_std 值: 12.1279
- 類型: nauc_ndcg_at_10_diff1 值: 26.3951
- 類型: nauc_ndcg_at_20_max 值: 22.2086
- 類型: nauc_ndcg_at_20_std 值: 11.355
- 類型: nauc_ndcg_at_20_diff1 值: 24.9668
- 類型: nauc_ndcg_at_100_max 值: 20.1961
- 類型: nauc_ndcg_at_100_std 值: 11.368300000000001
- 類型: nauc_ndcg_at_100_diff1 值: 21.654200000000003
- 類型: nauc_ndcg_at_1000_max 值: 19.7802
- 類型: nauc_ndcg_at_1000_std 值: 11.9399
- 類型: nauc_ndcg_at_1000_diff1 值: 19.8429
- 類型: nauc_map_at_1_max 值: 32.8089
- 類型: nauc_map_at_1_std 值: 13.0518
- 類型: nauc_map_at_1_diff1 值: 44.3602
- 類型: nauc_map_at_3_max 值: 29.285600000000002
- 類型: nauc_map_at_3_std 值: 12.4277
- 類型: nauc_map_at_3_diff1 值: 35.2678
- 類型: nauc_map_at_5_max 值: 27.6754
- 類型: nauc_map_at_5_std 值: 12.4042
- 類型: nauc_map_at_5_diff1 值: 33.330799999999996
- 類型: nauc_map_at_10_max 值: 26.571299999999997
- 類型: nauc_map_at_10_std 值: 12.439400000000001
- 類型: nauc_map_at_10_diff1 值: 31.275399999999998
- 類型: nauc_map_at_20_max 值: 25.8795
- 類型: nauc_map_at_20_std 值: 12.1596
- 類型: nauc_map_at_20_diff1 值: 30.6354
- 類型: nauc_map_at_100_max 值: 25.3369
- 類型: nauc_map_at_100_std 值: 12.0245
- 類型: nauc_map_at_100_diff1 值: 29.8703
- 類型: nauc_map_at_1000_max 值: 25.239800000000002
- 類型: nauc_map_at_1000_std 值: 12.0242
- 類型: nauc_map_at_1000_diff1 值: 29.7235
- 類型: nauc_recall_at_1_max 值: 32.8089
- 類型: nauc_recall_at_1_std 值: 13.0518
- 類型: nauc_recall_at_1_diff1 值: 44.3602
- 類型: nauc_recall_at_3_max 值: 26.747700000000002
- 類型: nauc_recall_at_3_std 值: 11.4203
- 類型: nauc_recall_at_3_diff1 值: 27.9047
- 類型: nauc_recall_at_5_max 值: 22.3707
- 類型: nauc_recall_at_5_std 值: 11.4164
- 類型: nauc_recall_at_5_diff1 值: 23.4182
- 類型: nauc_recall_at_10_max 值: 19.2758
- 類型: nauc_recall_at_10_std 值: 11.578800000000001
- 類型: nauc_recall_at_10_diff1 值: 18.030099999999997
- 類型: nauc_recall_at_20_max 值: 16.1643
- 類型: nauc_recall_at_20_std 值: 9.9037
- 類型: nauc_recall_at_20_diff1 值: 16.0833
- 類型: nauc_recall_at_100_max 值: 13.644700000000002
- 類型: nauc_recall_at_100_std 值: 10.986799999999999
- 類型: nauc_recall_at_100_diff1 值: 11.0515
- 類型: nauc_recall_at_1000_max 值: 13.9712
- 類型: nauc_recall_at_1000_std 值: 13.4048
- 類型: nauc_recall_at_1000_diff1 值: 6.569500000000001
- 類型: nauc_precision_at_1_max 值: 32.8089
- 類型: nauc_precision_at_1_std 值: 13.0518
- 類型: nauc_precision_at_1_diff1 值: 44.3602
- 類型: nauc_precision_at_3_max 值: 26.747700000000002
- 類型: nauc_precision_at_3_std 值: 11.4203
- 類型: nauc_precision_at_3_diff1 值: 27.9047
- 類型: nauc_precision_at_5_max 值: 22.3707
- 類型: nauc_precision_at_5_std 值: 11.4164
- 類型: nauc_precision_at_5_diff1 值: 23.4182
- 類型: nauc_precision_at_10_max 值: 19.2758
- 類型: nauc_precision_at_10_std 值: 11.578800000000001
- 類型: nauc_precision_at_10_diff1 值: 18.030099999999997
- 類型: nauc_precision_at_20_max 值: 16.1643
- 類型: nauc_precision_at_20_std 值: 9.9037
- 類型: nauc_precision_at_20_diff1 值: 16.0833
- 類型: nauc_precision_at_100_max 值: 13.644700000000002
- 類型: nauc_precision_at_100_std 值: 10.986799999999999
- 類型: nauc_precision_at_100_diff1 值: 11.0515
- 類型: nauc_precision_at_1000_max 值: 13.9712
- 類型: nauc_precision_at_1000_std 值: 13.4048
- 類型: nauc_precision_at_1000_diff1 值: 6.569500000000001
- 類型: nauc_mrr_at_1_max 值: 32.8089
- 類型: nauc_mrr_at_1_std 值: 13.0518
- 類型: nauc_mrr_at_1_diff1 值: 44.3602
- 類型: nauc_mrr_at_3_max 值: 29.285600000000002
- 類型: nauc_mrr_at_3_std 值: 12.4277
- 類型: nauc_mrr_at_3_diff1 值: 35.2678
- 類型: nauc_mrr_at_5_max 值: 27.6754
- 類型: nauc_mrr_at_5_std 值: 12.4042
- 類型: nauc_mrr_at_5_diff1 值: 33.330799999999996
- 類型: nauc_mrr_at_10_max 值: 26.571299999999997
- 類型: nauc_mrr_at_10_std 值: 12.439400000000001
- 類型: nauc_mrr_at_10_diff1 值: 31.275399999999998
- 類型: nauc_mrr_at_20_max 值: 25.8795
- 類型: nauc_mrr_at_20_std 值: 12.1596
- 類型: nauc_mrr_at_20_diff1 值: 30.6354
- 類型: nauc_mrr_at_100_max 值: 25.337
- 類型: nauc_mrr_at_100_std 值: 12.0245
- 類型: nauc_mrr_at_100_diff1 值: 29.870400000000004
- 類型: nauc
- 數據集:
配置: en-ext
名稱: MTEB AmazonCounterfactualClassification (en-ext)
版本: e8379541af4e31359cca9fbcf4b00f2671dba205
分割: 測試
類型: mteb/amazon_counterfactual
指標:
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98