🚀 sgpt-bloom-1b7-nli
sgpt-bloom-1b7-nli
是一個用於句子相似度計算的模型,可應用於分類和語義文本相似度(STS)等任務。它在多種數據集上進行了評估,展現出一定的性能表現。
🚀 快速開始
使用說明
使用說明請參考:https://github.com/Muennighoff/sgpt#symmetric-semantic-search
訓練命令
該模型使用以下命令進行訓練:
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch examples/training/nli/training_nli_v2.py --model_name bigscience/bloom-1b3 --freezenonbias --train_batch_size 128 --lr 32e-5 --pooling weightedmean --wandb --wandbwatchlog gradients --gradcache --chunksize 4
📊 評估結果
{'askubuntu': 57.44, 'cqadupstack': 14.18, 'twitterpara': 73.99, 'scidocs': 74.74, 'avg': 55.087500000000006}
🔧 技術細節
訓練參數
數據加載器
sentence_transformers.datasets.NoDuplicatesDataLoader.NoDuplicatesDataLoader
,長度為 4403,參數如下:
{'batch_size': 128}
該模型使用了 BitFit、加權平均池化和 GradCache,詳情請見:https://arxiv.org/abs/2202.08904
損失函數
sentence_transformers.losses.MultipleNegativesRankingLoss.MNRLGradCache
fit()
方法的參數:
{
"epochs": 1,
"evaluation_steps": 440,
"evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
"max_grad_norm": 1,
"optimizer_class": "<class 'transformers.optimization.AdamW'>",
"optimizer_params": {
"lr": 0.00032
},
"scheduler": "WarmupLinear",
"steps_per_epoch": null,
"warmup_steps": 441,
"weight_decay": 0.01
}
完整模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 75, 'do_lower_case': False}) with Transformer model: BloomModel
(1): Pooling({'word_embedding_dimension': 2048, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': True, 'pooling_mode_lasttoken': False})
)
📄 許可證
文檔未提及相關許可證信息。
📖 引用信息
@article{muennighoff2022sgpt,
title={SGPT: GPT Sentence Embeddings for Semantic Search},
author={Muennighoff, Niklas},
journal={arXiv preprint arXiv:2202.08904},
year={2022}
}
📋 模型評估詳情
任務類型 |
數據集名稱 |
配置 |
準確率 |
F1值 |
其他指標 |
分類 |
MTEB AmazonReviewsClassification (fr) |
fr |
39.286 |
38.87078070073539 |
- |
分類 |
MTEB AmazonReviewsClassification (zh) |
zh |
37.634 |
36.86046604093418 |
- |
分類 |
MTEB MTOPDomainClassification (fr) |
fr |
83.79893517068588 |
83.72326662566203 |
- |
分類 |
MTEB MTOPIntentClassification (fr) |
fr |
63.36047604134043 |
44.261707019308126 |
- |
分類 |
MTEB MassiveIntentClassification (fr) |
fr |
64.57632817753867 |
62.60453982786661 |
- |
分類 |
MTEB MassiveScenarioClassification (fr) |
fr |
69.59986550100874 |
69.71803697939914 |
- |
STS |
MTEB STS22 (zh) |
zh |
- |
- |
餘弦相似度皮爾遜係數:59.71781185663265;餘弦相似度斯皮爾曼係數:58.538648447630514;歐幾里得距離皮爾遜係數:53.53848180206165;歐幾里得距離斯皮爾曼係數:56.33730262964236;曼哈頓距離皮爾遜係數:54.62109820575505;曼哈頓距離斯皮爾曼係數:57.223846291318914 |
STS |
MTEB STS22 (fr) |
fr |
- |
- |
餘弦相似度皮爾遜係數:73.44021434651606;餘弦相似度斯皮爾曼係數:73.13412769502769;歐幾里得距離皮爾遜係數:68.16368597409867;歐幾里得距離斯皮爾曼係數:72.44964781564485;曼哈頓距離皮爾遜係數:69.42307032478939;曼哈頓距離斯皮爾曼係數:73.3523195012387 |