veriscrape-book-test-sbert开源句子转换器模型 - 免费支持语义相似度计算等任务

首页

Veriscrape Book Test Sbert Bs128 Lr5e 05 Ep3 Euclidean Sntrue Spfalse Hn1

由 albertus-sussex 开发

这是一个从阿里巴巴NLP/gte-base-en-v1.5微调而来的句子转换器模型，用于将文本映射到768维向量空间，支持语义相似度计算等任务。

文本嵌入

Safetensors

其他#长文本语义匹配 #高维向量嵌入 #图书元数据识别

下载量 14

发布时间 : 3/17/2025

模型简介

该模型基于阿里巴巴NLP/gte-base-en-v1.5微调，能够将句子和段落转换为768维稠密向量，适用于语义文本相似度、语义搜索、文本分类和聚类等任务。

模型特点

高维向量表示

将文本映射到768维稠密向量空间，捕捉深层语义特征

长文本支持

最大支持8192个标记的序列长度，适合处理长文本

高性能相似度计算

基于余弦相似度的高效文本相似度计算

微调优化

基于阿里巴巴NLP/gte-base-en-v1.5进行针对性微调

模型能力

语义文本相似度计算

语义搜索

复述挖掘

文本分类

文本聚类

使用案例

图书信息处理

图书元数据匹配

匹配书名、作者、ISBN等图书元数据

余弦准确率达到0.9934

图书信息分类

对图书标题、作者、出版日期等信息进行分类

轮廓系数达到0.882

通用文本处理

语义搜索

基于语义相似度的文档检索

文本聚类

对相似文本进行自动分组

🚀 基于Alibaba-NLP/gte-base-en-v1.5的句子转换器

这是一个基于Alibaba-NLP/gte-base-en-v1.5微调的sentence-transformers模型。它可以将句子和段落映射到768维的密集向量空间，可用于语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等任务。

🚀 快速开始

本模型可用于语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等任务。以下将介绍如何安装依赖库并使用该模型进行推理。

✨ 主要特性

高维向量映射：将句子和段落映射到768维的密集向量空间。
多任务支持：可用于语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等多种任务。

📦 安装指南

首先，你需要安装Sentence Transformers库：

pip install -U sentence-transformers

💻 使用示例

基础用法

安装完成后，你可以加载模型并进行推理：

from sentence_transformers import SentenceTransformer

# 从🤗 Hub下载模型
model = SentenceTransformer("albertus-sussex/veriscrape-book-test-sbert-bs128_lr5e-05_ep3_euclidean_snTrue_spFalse_hn1")
# 进行推理
sentences = [
    'Midnight',
    'The Bone Parade',
    '12/01/2005',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 详细文档

模型详情

模型描述

属性	详情
模型类型	句子转换器
基础模型	Alibaba-NLP/gte-base-en-v1.5
最大序列长度	8192个词元
输出维度	768维
相似度函数	余弦相似度

模型来源

文档：Sentence Transformers文档
代码仓库：GitHub上的Sentence Transformers
Hugging Face：Hugging Face上的Sentence Transformers

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

评估

三元组评估

使用TripletEvaluator进行评估：

指标	数值
余弦准确率	0.9934

轮廓系数评估

使用 veriscrape.training.SilhouetteEvaluator 进行评估：

指标	数值
轮廓余弦系数	0.882
轮廓欧几里得系数	0.7902

再次三元组评估

使用TripletEvaluator进行评估：

指标	数值
余弦准确率	0.9953

再次轮廓系数评估

使用 veriscrape.training.SilhouetteEvaluator 进行评估：

指标	数值
轮廓余弦系数	0.8862
轮廓欧几里得系数	0.7944

训练详情

训练数据集

未命名数据集

规模：84,524个训练样本
列名：anchor、positive、negative、pos_attr_name 和 neg_attr_name

基于前1000个样本的近似统计信息：

	anchor	positive	negative	pos_attr_name	neg_attr_name
类型	字符串	字符串	字符串	字符串	字符串
详情	最小值：3个词元平均值：6.97个词元最大值：37个词元	最小值：3个词元平均值：7.09个词元最大值：28个词元	最小值：3个词元平均值：6.31个词元最大值：23个词元	最小值：3个词元平均值：3.77个词元最大值：5个词元	最小值：3个词元平均值：3.8个词元最大值：5个词元

样本示例：

anchor	positive	negative	pos_attr_name	neg_attr_name
`09/01/1997`	`12/01/1977`	`2010`	`publication_date`	`title`
`9780060275730`	`9780829748772`	`HarperCollins Publishers Ltd`	`isbn_13`	`publisher`
`9780609809648`	`9780764551956`	`HarperCollins Publishers`	`isbn_13`	`author`

损失函数：veriscrape.training.AttributeTripletLoss，参数如下：

{
    "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
    "triplet_margin": 5
}

评估数据集

未命名数据集

规模：9,392个评估样本
列名：anchor、positive、negative、pos_attr_name 和 neg_attr_name

基于前1000个样本的近似统计信息：

	anchor	positive	negative	pos_attr_name	neg_attr_name
类型	字符串	字符串	字符串	字符串	字符串
详情	最小值：3个词元平均值：6.85个词元最大值：27个词元	最小值：3个词元平均值：6.98个词元最大值：44个词元	最小值：3个词元平均值：6.08个词元最大值：18个词元	最小值：3个词元平均值：3.75个词元最大值：5个词元	最小值：3个词元平均值：3.8个词元最大值：5个词元

样本示例：

anchor	positive	negative	pos_attr_name	neg_attr_name
`9780764200564`	`: 9780590458467`	`1984`	`isbn_13`	`publication_date`
`Penguin Group USA`	`Signet`	`9781600243912`	`publisher`	`isbn_13`
`Alphabet Juice`	`Space`	`9780807871133`	`title`	`isbn_13`

损失函数：veriscrape.training.AttributeTripletLoss，参数如下：

{
    "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
    "triplet_margin": 5
}

训练超参数

非默认超参数

eval_strategy：按轮次评估
per_device_train_batch_size：128
per_device_eval_batch_size：128
warmup_ratio：0.1

所有超参数

点击展开

overwrite_output_dir: False
do_predict: False
eval_strategy: epoch
prediction_loss_only: True
per_device_train_batch_size: 128
per_device_eval_batch_size: 128
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 3
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: False
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
prompts: None
batch_sampler: batch_sampler
multi_dataset_batch_sampler: proportional

训练日志

轮次	步数	训练损失	验证损失	余弦准确率	轮廓余弦系数
-1	-1	-	-	0.4284	0.1492
1.0	661	0.4554	0.1438	0.9898	0.8308
2.0	1322	0.045	0.1377	0.9930	0.8744
3.0	1983	0.0195	0.1509	0.9934	0.8820
-1	-1	-	-	0.9953	0.8862

框架版本

Python：3.10.16
Sentence Transformers：3.4.1
Transformers：4.45.2
PyTorch：2.5.1+cu124
Accelerate：1.5.2
Datasets：3.1.0
Tokenizers：0.20.3

📄 许可证

文档中未提及相关许可证信息。

🔧 技术细节

引用

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

AttributeTripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}