intfloat - triplet - v2开源模型 - 免费实现语义文本相似度和搜索任务

首页

Intfloat Triplet V2

由 x1saint 开发

这是一个从intfloat/multilingual-e5-small微调而来的sentence-transformers模型，用于将句子和段落映射到384维的密集向量空间，支持语义文本相似度、语义搜索等任务。

文本嵌入

Safetensors

其他#土耳其语句子相似度 #多语言嵌入 #语义搜索优化

下载量 19

发布时间 : 2/16/2025

模型简介

该模型基于intfloat/multilingual-e5-small微调，使用all-nli-tr数据集训练，主要用于土耳其语的句子相似度计算和特征提取。

模型特点

多语言支持

基于multilingual-e5-small模型，支持多种语言处理

高维向量空间

将文本映射到384维密集向量空间，捕捉深层语义特征

高效训练

使用多重负例排序损失进行优化，在482,091个样本上训练

模型能力

语义文本相似度计算

语义搜索

释义挖掘

文本分类

文本聚类

使用案例

文本处理

相似句子检索

在文档库中查找语义相似的句子

余弦准确度达到0.928

问答系统

匹配用户问题与知识库中的答案

🚀 基于intfloat/multilingual - e5 - small的句子转换器

本项目是一个基于 sentence - transformers 的模型，它在 [all - nli - tr](https://huggingface.co/datasets/emrecan/all - nli - tr) 数据集上对 [intfloat/multilingual - e5 - small](https://huggingface.co/intfloat/multilingual - e5 - small) 进行了微调。该模型可将句子和段落映射到384维的密集向量空间，适用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等任务。

🚀 快速开始

直接使用（Sentence Transformers）

首先，安装 Sentence Transformers 库：

pip install -U sentence-transformers

然后，你可以加载此模型并进行推理：

from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载
model = SentenceTransformer("x1saint/intfloat-triplet-v2")
# 运行推理
sentences = [
    'Ve gerçekten, baba haklıydı, oğlu zaten her şeyi tecrübe etmişti, her şeyi denedi ve daha az ilgileniyordu.',
    'Oğlu her şeye olan ilgisini kaybediyordu.',
    'Baba oğlunun tecrübe için hala çok şey olduğunu biliyordu.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

✨ 主要特性

该模型具有以下特性：

多语言支持：能够处理多种语言的句子和段落。
高维向量映射：将文本映射到384维的密集向量空间，便于进行语义分析。
多种应用场景：可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等。

📦 安装指南

要使用此模型，你需要安装 Sentence Transformers 库。可以使用以下命令进行安装：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载
model = SentenceTransformer("x1saint/intfloat-triplet-v2")
# 运行推理
sentences = [
    'Ve gerçekten, baba haklıydı, oğlu zaten her şeyi tecrübe etmişti, her şeyi denedi ve daha az ilgileniyordu.',
    'Oğlu her şeye olan ilgisini kaybediyordu.',
    'Baba oğlunun tecrübe için hala çok şey olduğunu biliyordu.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 详细文档

模型详情

模型描述

属性	详情
模型类型	句子转换器
基础模型	[intfloat/multilingual - e5 - small](https://huggingface.co/intfloat/multilingual - e5 - small)
最大序列长度	512个标记
输出维度	384维
相似度函数	余弦相似度
训练数据集	[all - nli - tr](https://huggingface.co/datasets/emrecan/all - nli - tr)
语言	土耳其语

模型来源

文档：Sentence Transformers 文档
仓库：[GitHub 上的 Sentence Transformers](https://github.com/UKPLab/sentence - transformers)
Hugging Face：[Hugging Face 上的 Sentence Transformers](https://huggingface.co/models?library = sentence - transformers)

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

评估

指标

三元组

数据集：all - nli - dev
使用 TripletEvaluator 进行评估

指标	值
余弦准确率	0.928

训练详情

训练数据集

all - nli - tr

数据集：[all - nli - tr](https://huggingface.co/datasets/emrecan/all - nli - tr)，版本 [daeabfb](https://huggingface.co/datasets/emrecan/all - nli - tr/tree/daeabfbc01f82757ab998bd23ce0ddfceaa5e24d)
大小：482,091 个训练样本
列：anchor、positive 和 negative
基于前1000个样本的近似统计信息： | | anchor | positive | negative | |------|------|------|------| | 类型 | 字符串 | 字符串 | 字符串 | | 详情 |
- 最小：5个标记
- 平均：28.16个标记
- 最大：151个标记
|
- 最小：5个标记
- 平均：15.14个标记
- 最大：49个标记
|
- 最小：4个标记
- 平均：14.33个标记
- 最大：55个标记
|
样本： | anchor | positive | negative | |------|------|------| | Mevsim boyunca ve sanırım senin seviyendeyken onları bir sonraki seviyeye düşürürsün. Eğer ebeveyn takımını çağırmaya karar verirlerse Braves üçlü A'dan birini çağırmaya karar verirlerse çifte bir adam onun yerine geçmeye gider ve bekar bir adam gelir. | Eğer insanlar hatırlarsa, bir sonraki seviyeye düşersin. | Hiçbir şeyi hatırlamazlar. | | Numaramızdan biri talimatlarınızı birazdan yerine getirecektir. | Ekibimin bir üyesi emirlerinizi büyük bir hassasiyetle yerine getirecektir. | Şu anda boş kimsek yok, bu yüzden sen de harekete geçmelisin. | | Bunu nereden biliyorsun? Bütün bunlar yine onların bilgileri. | Bu bilgi onlara ait. | Hiçbir bilgileri yok. |
损失函数：MultipleNegativesRankingLoss，参数如下：

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

评估数据集

all - nli - tr

数据集：[all - nli - tr](https://huggingface.co/datasets/emrecan/all - nli - tr)，版本 [daeabfb](https://huggingface.co/datasets/emrecan/all - nli - tr/tree/daeabfbc01f82757ab998bd23ce0ddfceaa5e24d)
大小：6,567 个评估样本
列：anchor、positive 和 negative
基于前1000个样本的近似统计信息： | | anchor | positive | negative | |------|------|------|------| | 类型 | 字符串 | 字符串 | 字符串 | | 详情 |
- 最小：3个标记
- 平均：26.66个标记
- 最大：121个标记
|
- 最小：5个标记
- 平均：14.98个标记
- 最大：49个标记
|
- 最小：4个标记
- 平均：14.4个标记
- 最大：37个标记
|
样本： | anchor | positive | negative | |------|------|------| | Bilemiyorum. Onunla ilgili karışık duygularım var. Bazen ondan hoşlanıyorum ama aynı zamanda birisinin onu dövmesini görmeyi seviyorum. | Çoğunlukla ondan hoşlanıyorum, ama yine de birinin onu dövdüğünü görmekten zevk alıyorum. | O benim favorim ve kimsenin onu yendiğini görmek istemiyorum. | | Sen ve arkadaşların burada hoş karşılanmaz, Severn söyledi. | Severn orada insanların hoş karşılanmadığını söyledi. | Severn orada insanların her zaman hoş karşılanacağını söyledi. | | Gecenin en aşağısı ne olduğundan emin değilim. | Dün gece ne kadar soğuk oldu bilmiyorum. | Dün gece hava 37 dereceydi. |
损失函数：MultipleNegativesRankingLoss，参数如下：

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

训练超参数

非默认超参数

eval_strategy：按步骤评估
per_device_train_batch_size：256
per_device_eval_batch_size：256
gradient_accumulation_steps：4
num_train_epochs：10
warmup_ratio：0.1
bf16：True
dataloader_num_workers：4

所有超参数

点击展开

overwrite_output_dir：False
do_predict：False
eval_strategy：steps
prediction_loss_only：True
per_device_train_batch_size：256
per_device_eval_batch_size：256
per_gpu_train_batch_size：None
per_gpu_eval_batch_size：None
gradient_accumulation_steps：4
eval_accumulation_steps：None
torch_empty_cache_steps：None
learning_rate：5e - 05
weight_decay：0.0
adam_beta1：0.9
adam_beta2：0.999
adam_epsilon：1e - 08
max_grad_norm：1.0
num_train_epochs：10
max_steps： - 1
lr_scheduler_type：linear
lr_scheduler_kwargs：{}
warmup_ratio：0.1
warmup_steps：0
log_level：passive
log_level_replica：warning
log_on_each_node：True
logging_nan_inf_filter：True
save_safetensors：True
save_on_each_node：False
save_only_model：False
restore_callback_states_from_checkpoint：False
no_cuda：False
use_cpu：False
use_mps_device：False
seed：42
data_seed：None
jit_mode_eval：False
use_ipex：False
bf16：True
fp16：False
fp16_opt_level：O1
half_precision_backend：auto
bf16_full_eval：False
fp16_full_eval：False
tf32：None
local_rank：0
ddp_backend：None
tpu_num_cores：None
tpu_metrics_debug：False
debug：[]
dataloader_drop_last：False
dataloader_num_workers：4
dataloader_prefetch_factor：None
past_index： - 1
disable_tqdm：False
remove_unused_columns：True
label_names：None
load_best_model_at_end：False
ignore_data_skip：False
fsdp：[]
fsdp_min_num_params：0
fsdp_config：{'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap：None
accelerator_config：{'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed：None
label_smoothing_factor：0.0
optim：adamw_torch
optim_args：None
adafactor：False
group_by_length：False
length_column_name：length
ddp_find_unused_parameters：None
ddp_bucket_cap_mb：None
ddp_broadcast_buffers：False
dataloader_pin_memory：True
dataloader_persistent_workers：False
skip_memory_metrics：True
use_legacy_prediction_loop：False
push_to_hub：False
resume_from_checkpoint：None
hub_model_id：None
hub_strategy：every_save
hub_private_repo：None
hub_always_push：False
gradient_checkpointing：False
gradient_checkpointing_kwargs：None
include_inputs_for_metrics：False
include_for_metrics：[]
eval_do_concat_batches：True
fp16_backend：auto
push_to_hub_model_id：None
push_to_hub_organization：None
mp_parameters：
auto_find_batch_size：False
full_determinism：False
torchdynamo：None
ray_scope：last
ddp_timeout：1800
torch_compile：False
torch_compile_backend：None
torch_compile_mode：None
dispatch_batches：None
split_batches：None
include_tokens_per_second：False
include_num_input_tokens_seen：False
neftune_noise_alpha：None
optim_target_modules：None
batch_eval_metrics：False
eval_on_start：False
use_liger_kernel：False
eval_use_gather_object：False
average_tokens_across_devices：False
prompts：None
batch_sampler：batch_sampler
multi_dataset_batch_sampler：proportional

训练日志

轮次	步骤	训练损失	验证损失	all - nli - dev 余弦准确率
1.0616	500	6.0902	0.7763	0.9024
2.1231	1000	3.6464	0.6962	0.9156
3.1847	1500	3.1127	0.6679	0.9191
4.2463	2000	2.8153	0.6608	0.9233
5.3079	2500	2.5886	0.6506	0.9252
6.3694	3000	2.4437	0.6478	0.9252
7.4310	3500	2.3393	0.6456	0.9263
8.4926	4000	2.2521	0.6414	0.9284
9.5541	4500	2.1913	0.6397	0.9280

框架版本

Python：3.11.11
Sentence Transformers：3.4.1
Transformers：4.48.3
PyTorch：2.5.1 + cu124
Accelerate：1.3.0
Datasets：3.3.0
Tokenizers：0.21.0

📄 许可证

文档中未提及相关许可证信息。

📖 引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}