vectorizer.raspberry开源向量化器 - 免费生成嵌入向量用于句子相似度计算和检索

首页

Vectorizer.raspberry

由 sinequa 开发

由Sinequa开发的向量化器，能够根据输入的段落或查询生成嵌入向量，用于句子相似度计算和检索任务。

文本嵌入

Transformers

支持多种语言#多语言嵌入 #低延迟检索 #跨语言相似度

下载量 408

发布时间 : 7/11/2023

模型简介

该模型是一个特征提取和句子相似度计算模型，主要用于生成段落和查询的嵌入向量，支持多语言文本处理。

模型特点

多语言支持

支持9种主要语言，并兼容基础模型预训练时的其他91种语言。

高效推理

在NVIDIA A10 GPU上，FP16量化下批大小1的推理时间仅需1毫秒。

不敏感处理

对文本大小写和重音不敏感，提高了模型的鲁棒性。

降维输出

通过额外的密集层将输出维度降至256，优化了存储和计算效率。

模型能力

多语言文本嵌入

句子相似度计算

段落向量化

查询向量化

跨语言检索

使用案例

信息检索

文档检索

使用查询向量查找相关文档段落

在BEIR基准测试中平均Recall@100达到0.613

多语言应用

跨语言搜索

支持多种语言的文本相似度计算和检索

在MIRACL基准测试中，中文Recall@100达到0.680

🚀 `vectorizer.raspberry` 模型卡片

vectorizer.raspberry 是由 Sinequa 开发的向量器模型。它可以根据给定的段落或查询生成嵌入向量。段落向量会存储在向量索引中，查询向量则用于在查询时在索引中查找相关段落。

🚀 快速开始

本模型支持多种语言，可直接用于生成向量进行相似度计算等任务。

✨ 主要特性

多语言支持：支持英语、法语、德语、西班牙语、意大利语、荷兰语、日语、葡萄牙语和简体中文等语言，对基础模型预训练使用的另外 91 种语言也有基本支持。
大小写和重音不敏感：在处理文本时不受大小写和重音的影响。
低维度输出：输出维度为 256，通过额外的密集层进行降维。

📦 安装指南

环境要求

最低 Sinequa 版本：11.10.0
使用 FP16 模型和 CUDA 计算能力为 8.9+ 的 GPU（如 NVIDIA L4）的最低 Sinequa 版本：11.11.0
CUDA 计算能力：高于 5.0（使用 FP16 时高于 6.0）

💻 使用示例

本 README 未提供具体代码示例，你可以根据模型的功能和自身需求，利用相关的开发工具和框架进行调用。

📚 详细文档

支持语言

该模型在以下语言上进行了训练和测试：

英语
法语
德语
西班牙语
意大利语
荷兰语
日语
葡萄牙语
简体中文

此外，对基础模型预训练使用的另外 91 种语言也有基本支持（详见 XLM - R 论文附录 A）。

得分

指标	值
相关性（Recall@100）	0.613

请注意，相关性得分是在 14 个检索数据集上的平均值（详见评估指标）。

推理时间

GPU	量化类型	批量大小 1	批量大小 32
NVIDIA A10	FP16	1 ms	5 ms
NVIDIA A10	FP32	2 ms	18 ms
NVIDIA T4	FP16	1 ms	12 ms
NVIDIA T4	FP32	3 ms	52 ms
NVIDIA L4	FP16	2 ms	5 ms
NVIDIA L4	FP32	4 ms	24 ms

GPU 内存使用

量化类型	内存
FP16	550 MiB
FP32	1050 MiB

请注意，GPU 内存使用仅包括在 NVIDIA T4 GPU 上批量大小为 32 时实际模型消耗的 GPU 内存。不包括 ONNX Runtime 初始化时消耗的固定内存，这部分内存根据使用的 GPU 不同，大约在 0.5 到 1 GiB 之间。

模型详情

概述

参数数量：1.07 亿
基础语言模型：mMiniLMv2 - L6 - H384 - distilled - from - XLMR - Large (论文, GitHub)
大小写和重音不敏感
输出维度：256（通过额外的密集层降维）
训练过程：对于有挖掘困难负样本数据的数据集，使用查询 - 段落 - 负样本三元组；其余使用查询 - 段落对。负样本数量通过批次内负样本策略进行扩充

训练数据

该模型使用了 all - MiniLM - L6 - v2 模型引用的所有数据集进行训练。此外，还在这篇论文引用的 9 种上述语言的数据集上进行了训练。

评估指标

为了确定相关性得分，我们对在 [BEIR 基准](https://github.com/beir - cellar/beir) 数据集上的评估结果进行了平均。请注意，所有这些数据集均为英文。

数据集	Recall@100
平均值	0.613
Arguana	0.957
CLIMATE - FEVER	0.468
DBPedia Entity	0.377
FEVER	0.820
FiQA - 2018	0.639
HotpotQA	0.560
MS MARCO	0.845
NFCorpus	0.287
NQ	0.756
Quora	0.992
SCIDOCS	0.456
SciFact	0.906
TREC - COVID	0.100
Webis - Touche - 2020	0.413

我们在 [MIRACL 基准](https://github.com/project - miracl/miracl) 的数据集上对模型进行了评估，以测试其多语言能力。请注意，并非所有训练语言都包含在该基准中，因此我们仅报告现有语言的指标。

语言	Recall@100
法语	0.650
德语	0.528
西班牙语	0.602
日语	0.614
简体中文	0.680

🔧 技术细节

本模型基于 mMiniLMv2 - L6 - H384 - distilled - from - XLMR - Large 基础语言模型，通过特定的训练策略和数据进行训练，以实现多语言的句子相似度计算和特征提取功能。在训练过程中，针对不同类型的数据集采用了不同的训练方式，同时利用批次内负样本策略扩充负样本数量。