🚀 sgpt-bloom-1b7-nli
sgpt-bloom-1b7-nli
是一个用于句子相似度计算的模型,可应用于分类和语义文本相似度(STS)等任务。它在多种数据集上进行了评估,展现出一定的性能表现。
🚀 快速开始
使用说明
使用说明请参考:https://github.com/Muennighoff/sgpt#symmetric-semantic-search
训练命令
该模型使用以下命令进行训练:
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch examples/training/nli/training_nli_v2.py --model_name bigscience/bloom-1b3 --freezenonbias --train_batch_size 128 --lr 32e-5 --pooling weightedmean --wandb --wandbwatchlog gradients --gradcache --chunksize 4
📊 评估结果
{'askubuntu': 57.44, 'cqadupstack': 14.18, 'twitterpara': 73.99, 'scidocs': 74.74, 'avg': 55.087500000000006}
🔧 技术细节
训练参数
数据加载器
sentence_transformers.datasets.NoDuplicatesDataLoader.NoDuplicatesDataLoader
,长度为 4403,参数如下:
{'batch_size': 128}
该模型使用了 BitFit、加权平均池化和 GradCache,详情请见:https://arxiv.org/abs/2202.08904
损失函数
sentence_transformers.losses.MultipleNegativesRankingLoss.MNRLGradCache
fit()
方法的参数:
{
"epochs": 1,
"evaluation_steps": 440,
"evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
"max_grad_norm": 1,
"optimizer_class": "<class 'transformers.optimization.AdamW'>",
"optimizer_params": {
"lr": 0.00032
},
"scheduler": "WarmupLinear",
"steps_per_epoch": null,
"warmup_steps": 441,
"weight_decay": 0.01
}
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 75, 'do_lower_case': False}) with Transformer model: BloomModel
(1): Pooling({'word_embedding_dimension': 2048, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': True, 'pooling_mode_lasttoken': False})
)
📄 许可证
文档未提及相关许可证信息。
📖 引用信息
@article{muennighoff2022sgpt,
title={SGPT: GPT Sentence Embeddings for Semantic Search},
author={Muennighoff, Niklas},
journal={arXiv preprint arXiv:2202.08904},
year={2022}
}
📋 模型评估详情
任务类型 |
数据集名称 |
配置 |
准确率 |
F1值 |
其他指标 |
分类 |
MTEB AmazonReviewsClassification (fr) |
fr |
39.286 |
38.87078070073539 |
- |
分类 |
MTEB AmazonReviewsClassification (zh) |
zh |
37.634 |
36.86046604093418 |
- |
分类 |
MTEB MTOPDomainClassification (fr) |
fr |
83.79893517068588 |
83.72326662566203 |
- |
分类 |
MTEB MTOPIntentClassification (fr) |
fr |
63.36047604134043 |
44.261707019308126 |
- |
分类 |
MTEB MassiveIntentClassification (fr) |
fr |
64.57632817753867 |
62.60453982786661 |
- |
分类 |
MTEB MassiveScenarioClassification (fr) |
fr |
69.59986550100874 |
69.71803697939914 |
- |
STS |
MTEB STS22 (zh) |
zh |
- |
- |
余弦相似度皮尔逊系数:59.71781185663265;余弦相似度斯皮尔曼系数:58.538648447630514;欧几里得距离皮尔逊系数:53.53848180206165;欧几里得距离斯皮尔曼系数:56.33730262964236;曼哈顿距离皮尔逊系数:54.62109820575505;曼哈顿距离斯皮尔曼系数:57.223846291318914 |
STS |
MTEB STS22 (fr) |
fr |
- |
- |
余弦相似度皮尔逊系数:73.44021434651606;余弦相似度斯皮尔曼系数:73.13412769502769;欧几里得距离皮尔逊系数:68.16368597409867;欧几里得距离斯皮尔曼系数:72.44964781564485;曼哈顿距离皮尔逊系数:69.42307032478939;曼哈顿距离斯皮尔曼系数:73.3523195012387 |