🚀 vectorizer.raspberry
模型卡片
vectorizer.raspberry
是由 Sinequa 开发的向量器模型。它可以根据给定的段落或查询生成嵌入向量。段落向量会存储在向量索引中,查询向量则用于在查询时在索引中查找相关段落。
🚀 快速开始
本模型支持多种语言,可直接用于生成向量进行相似度计算等任务。
✨ 主要特性
- 多语言支持:支持英语、法语、德语、西班牙语、意大利语、荷兰语、日语、葡萄牙语和简体中文等语言,对基础模型预训练使用的另外 91 种语言也有基本支持。
- 大小写和重音不敏感:在处理文本时不受大小写和重音的影响。
- 低维度输出:输出维度为 256,通过额外的密集层进行降维。
📦 安装指南
环境要求
- 最低 Sinequa 版本:11.10.0
- 使用 FP16 模型和 CUDA 计算能力为 8.9+ 的 GPU(如 NVIDIA L4)的最低 Sinequa 版本:11.11.0
- CUDA 计算能力:高于 5.0(使用 FP16 时高于 6.0)
💻 使用示例
本 README 未提供具体代码示例,你可以根据模型的功能和自身需求,利用相关的开发工具和框架进行调用。
📚 详细文档
支持语言
该模型在以下语言上进行了训练和测试:
- 英语
- 法语
- 德语
- 西班牙语
- 意大利语
- 荷兰语
- 日语
- 葡萄牙语
- 简体中文
此外,对基础模型预训练使用的另外 91 种语言也有基本支持(详见 XLM - R 论文附录 A)。
得分
指标 |
值 |
相关性(Recall@100) |
0.613 |
请注意,相关性得分是在 14 个检索数据集上的平均值(详见评估指标)。
推理时间
GPU |
量化类型 |
批量大小 1 |
批量大小 32 |
NVIDIA A10 |
FP16 |
1 ms |
5 ms |
NVIDIA A10 |
FP32 |
2 ms |
18 ms |
NVIDIA T4 |
FP16 |
1 ms |
12 ms |
NVIDIA T4 |
FP32 |
3 ms |
52 ms |
NVIDIA L4 |
FP16 |
2 ms |
5 ms |
NVIDIA L4 |
FP32 |
4 ms |
24 ms |
GPU 内存使用
量化类型 |
内存 |
FP16 |
550 MiB |
FP32 |
1050 MiB |
请注意,GPU 内存使用仅包括在 NVIDIA T4 GPU 上批量大小为 32 时实际模型消耗的 GPU 内存。不包括 ONNX Runtime 初始化时消耗的固定内存,这部分内存根据使用的 GPU 不同,大约在 0.5 到 1 GiB 之间。
模型详情
概述
训练数据
该模型使用了 all - MiniLM - L6 - v2 模型引用的所有数据集进行训练。此外,还在 这篇论文 引用的 9 种上述语言的数据集上进行了训练。
评估指标
为了确定相关性得分,我们对在 [BEIR 基准](https://github.com/beir - cellar/beir) 数据集上的评估结果进行了平均。请注意,所有这些数据集均为英文。
数据集 |
Recall@100 |
平均值 |
0.613 |
Arguana |
0.957 |
CLIMATE - FEVER |
0.468 |
DBPedia Entity |
0.377 |
FEVER |
0.820 |
FiQA - 2018 |
0.639 |
HotpotQA |
0.560 |
MS MARCO |
0.845 |
NFCorpus |
0.287 |
NQ |
0.756 |
Quora |
0.992 |
SCIDOCS |
0.456 |
SciFact |
0.906 |
TREC - COVID |
0.100 |
Webis - Touche - 2020 |
0.413 |
我们在 [MIRACL 基准](https://github.com/project - miracl/miracl) 的数据集上对模型进行了评估,以测试其多语言能力。请注意,并非所有训练语言都包含在该基准中,因此我们仅报告现有语言的指标。
语言 |
Recall@100 |
法语 |
0.650 |
德语 |
0.528 |
西班牙语 |
0.602 |
日语 |
0.614 |
简体中文 |
0.680 |
🔧 技术细节
本模型基于 mMiniLMv2 - L6 - H384 - distilled - from - XLMR - Large
基础语言模型,通过特定的训练策略和数据进行训练,以实现多语言的句子相似度计算和特征提取功能。在训练过程中,针对不同类型的数据集采用了不同的训练方式,同时利用批次内负样本策略扩充负样本数量。
📄 许可证
原文档未提及许可证信息。