Venusaur
模型简介
该模型是一个句子转换器(sentence-transformers),主要用于计算句子之间的相似度,适用于文本匹配、信息检索等场景。
模型特点
高效的句子嵌入
能够将句子转换为高维向量表示,便于计算句子间的相似度
多任务评估
在MTEB等多个基准测试中进行了全面评估
轻量级模型
相比大型语言模型,该模型更加轻量,适合资源有限的环境
模型能力
句子相似度计算
文本特征提取
文本分类
信息检索
文本聚类
使用案例
电子商务
产品评论分类
对亚马逊产品评论进行情感分类
在MTEB AmazonPolarityClassification测试中准确率达到79.99%
产品相似度匹配
计算不同产品描述之间的相似度
信息检索
问答系统
用于问答系统中的答案检索
在MTEB ArguAna测试中NDCG@10达到34.8
🚀 Venusaur模型介绍
Venusaur是一个基于特定基础模型构建的模型,可用于句子相似度计算、特征提取等自然语言处理任务。该模型在多个数据集上进行了测试,并展示了一定的性能。
📚 详细文档
模型基本信息
属性 | 详情 |
---|---|
基础模型 | Mihaiii/Bulbasaur |
许可证 | MIT |
库名称 | sentence-transformers |
任务类型 | 句子相似度 |
标签 | sentence-transformers、feature-extraction、sentence-similarity、gte、mteb |
训练数据集 | Mihaiii/qa-assistant |
模型评估结果
模型名为Venusaur,在多个任务和数据集上进行了评估,以下是详细的评估结果:
分类任务
-
MTEB AmazonCounterfactualClassification (en)
- 数据集类型:mteb/amazon_counterfactual
- 数据集名称:MTEB AmazonCounterfactualClassification (en)
- 配置:en
- 分割:test
- 版本:e8379541af4e31359cca9fbcf4b00f2671dba205
- 评估指标:
- 准确率(accuracy):73.17910447761194
- 平均精度(ap):35.29994612283548
- F1值(f1):66.87845205993153
-
MTEB AmazonPolarityClassification
- 数据集类型:mteb/amazon_polarity
- 数据集名称:MTEB AmazonPolarityClassification
- 配置:default
- 分割:test
- 版本:e2d317d38cd51312af73b3d32a06d1a08b442046
- 评估指标:
- 准确率(accuracy):79.993525
- 平均精度(ap):74.7042261687233
- F1值(f1):79.9004149386498
-
MTEB AmazonReviewsClassification (en)
- 数据集类型:mteb/amazon_reviews_multi
- 数据集名称:MTEB AmazonReviewsClassification (en)
- 配置:en
- 分割:test
- 版本:1399c76144fd37290681b995c656ef9b2e06e26d
- 评估指标:
- 准确率(accuracy):39.656000000000006
- F1值(f1):39.287139345446256
检索任务
- MTEB ArguAna
- 数据集类型:mteb/arguana
- 数据集名称:MTEB ArguAna
- 配置:default
- 分割:test
- 版本:c22ab2a51041ffd869aaddef7af8d8215647e41a
- 评估指标:
- MAP@1:16.643
- MAP@10:28.276
- MAP@100:29.543999999999997
- MAP@1000:29.595
- MAP@20:29.043000000000003
- MAP@3:24.739
- MAP@5:26.592
- MRR@1:17.639
- MRR@10:28.631
- MRR@100:29.891000000000002
- MRR@1000:29.942999999999998
- MRR@20:29.391000000000002
- MRR@3:25.107000000000003
- MRR@5:26.942
- NDCG@1:16.643
- NDCG@10:34.8
- NDCG@100:41.179
- NDCG@1000:42.564
- NDCG@20:37.601
- NDCG@3:27.356
- NDCG@5:30.725
- Precision@1:16.643
- Precision@10:5.576
- Precision@100:0.861
- Precision@1000:0.097
- Precision@20:3.343
- Precision@3:11.641
- Precision@5:8.634
- Recall@1:16.643
- Recall@10:55.761
- Recall@100:86.06
- Recall@1000:97.013
- Recall@20:66.85600000000001
- Recall@3:34.922
- Recall@5:43.172
聚类任务
- MTEB ArxivClusteringP2P
- 数据集类型:mteb/arxiv-clustering-p2p
- 数据集名称:MTEB ArxivClusteringP2P
- 配置:default
- 分割:test
- 版本:a122ad7f3f0291bf49cc6f4d32aa80929df69d5d
- 评估指标:
- V-measure:31.76467048453136
- V-measures:[0.2646936786804572, 0.27790871012280266, 0.29027802989910717, 0.27400555976615254, 0.2823478131745678, 0.25739544436992295, 0.3014171939280134, 0.2862214695233955, 0.2856734533249879, 0.2870107976688266, 0.3709000837926645, 0.3702167780750079, 0.36556393540769305, 0.37650336515785243, 0.3699811227722488, 0.36806220730606526, 0.3696328229784335, 0.3852970338255622, 0.37157613433218695, 0.368267862192135, 0.3715516752706066, 0.26093751350716654, 0.24003989063421033, 0.31112640151573373, 0.2509815194812587, 0.19256512170374224, 0.2638556294764011, 0.08503820346290819, 0.1374194639615466, 1.0, 0.21057893489306592, 0.2646936786804572, 0.27790871012280266, 0.29027802989910717, 0.27400555976615254, 0.2823478131745678, 0.25739544436992295, 0.3014171939280134, 0.2862214695233955, 0.2856734533249879, 0.2870107976688266, 0.3709000837926645, 0.3702167780750079, 0.36556393540769305, 0.37650336515785243, 0.3699811227722488, 0.36806220730606526, 0.3696328229784335, 0.3852970338255622, 0.37157613433218695, 0.368267862192135, 0.3715516752706066, 0.26093751350716654, 0.24003989063421033, 0.31112640151573373, 0.2509815194812587, 0.19256512170374224, 0.2638556294764011, 0.08503820346290819, 0.1374194639615466, 1.0, 0.21057893489306592, 0.2646936786804572, 0.27790871012280266, 0.29027802989910717, 0.27400555976615254, 0.2823478131745678, 0.25739544436992295, 0.3014171939280134, 0.2862214695233955, 0.2856734533249879, 0.2870107976688266, 0.3709000837926645, 0.3702167780750079, 0.36556393540769305, 0.37650336515785243, 0.3699811227722488, 0.36806220730606526, 0.3696328229784335, 0.3852970338255622, 0.37157613433218695, 0.368267862192135, 0.3715516752706066, 0.26093751350716654, 0.24003989063421033, 0.31112640151573373, 0.2509815194812587, 0.19256512170374224, 0.2638556294764011, 0.08503820346290819, 0.1374194639615466, 1.0, 0.21057893489306592, 0.2646936786804572, 0.27790871012280266, 0.29027802989910717, 0.27400555976615254, 0.2823478131745678, 0.25739544436992295, 0.3014171939280134, 0.2862214695233955, 0.2856734533249879, 0.2870107976688266, 0.3709000837926645, 0.3702167780750079, 0.36556393540769305, 0.37650336515785243, 0.3699811227722488, 0.36806220730606526, 0.3696328229784335, 0.3852970338255622, 0.37157613433218695, 0.368267862192135, 0.3715516752706066, 0.26093751350716654, 0.24003989063421033, 0.31112640151573373, 0.2509815194812587, 0.19256512170374224, 0.2638556294764011, 0.08503820346290819, 0.1374194639615466, 1.0, 0.21057893489306592, 0.2646936786804572, 0.27790871012280266, 0.29027802989910717, 0.27400555976615254, 0.2823478131745678, 0.25739544436992295, 0.3014171939280134, 0.2862214695233955, 0.2856734533249879, 0.2870107976688266, 0.3709000837926645, 0.3702167780750079, 0.36556393540769305, 0.37650336515785243, 0.3699811227722488, 0.36806220730606526, 0.3696328229784335, 0.3852970338255622, 0.37157613433218695, 0.368267862192135, 0.3715516752706066, 0.26093751350716654, 0.24003989063421033, 0.31112640151573373, 0.2509815194812587, 0.19256512170374224, 0.2638556294764011, 0.08503820346290819, 0.1374194639615466, 1.0, 0.21057893489306592, 0.2646936786804572, 0.27790871012280266, 0.29027802989910717, 0.27400555976615254, 0.2823478131745678, 0.25739544436992295, 0.3014171939280134, 0.2862214695233955, 0.2856734533249879, 0.2870107976688266, 0.3709000837926645, 0.3702167780750079, 0.36556393540769305, 0.37650336515785243, 0.3699811227722488, 0.36806220730606526, 0.3696328229784335, 0.3852970338255622, 0.37157613433218695, 0.368267862192135, 0.3715516752706066, 0.26093751350716654, 0.24003989063421033, 0.31112640151573373, 0.2509815194812587, 0.19256512170374224, 0.2638556294764011, 0.08503820346290819, 0.1374194639615466, 1.0, 0.21057893489306592, 0.2646936786804572, 0.27790871012280266, 0.29027802989910717, 0.27400555976615254, 0.2823478131745678, 0.25739544436992295, 0.3014171939280134, 0.2862214695233955, 0.2856734533249879, 0.2870107976688266, 0.3709000837926645, 0.3702167780750079, 0.36556393540769305, 0.37650336515785243, 0.3699811227722488, 0.36806220730606526, 0.3696328229784335, 0.3852970338255622, 0.37157613433218695, 0.368267862192135, 0.3715516752706066, 0.26093751350716654, 0.24003989063421033, 0.31112640151573373, 0.2509815194812587, 0.19256512170374224, 0.2638556294764011, 0.08503820346290819, 0.1374194639615466, 1.0, 0.21057893489306592]
📄 许可证
本项目采用MIT许可证。
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98