🚀 vectorizer.guava
模型卡片
本模型是由 Sinequa 开发的向量生成器。给定一段文本或查询,它会生成一个嵌入向量。文本向量会存储在我们的向量索引中,而查询向量则在查询时用于在索引中查找相关文本。
支持的语言
该模型在以下语言上进行了训练和测试:
- 英语
- 法语
- 德语
- 西班牙语
- 意大利语
- 荷兰语
- 日语
- 葡萄牙语
- 中文(简体)
- 中文(繁体)
- 波兰语
除了这些语言,对于在基础模型预训练期间使用的另外 91 种语言,也可提供基本支持(详见 XLM - R 论文的附录 A)。
🚀 快速开始
分数
指标 |
值 |
英语相关性(Recall@100) |
0.616 |
请注意,相关性分数是在多个检索数据集上的平均值(详见评估指标)。
推理时间
GPU |
量化类型 |
批量大小 1 |
批量大小 32 |
NVIDIA A10 |
FP16 |
1 ms |
5 ms |
NVIDIA A10 |
FP32 |
2 ms |
18 ms |
NVIDIA T4 |
FP16 |
1 ms |
12 ms |
NVIDIA T4 |
FP32 |
3 ms |
52 ms |
NVIDIA L4 |
FP16 |
2 ms |
5 ms |
NVIDIA L4 |
FP32 |
4 ms |
24 ms |
GPU 内存使用情况
量化类型 |
内存 |
FP16 |
550 MiB |
FP32 |
1050 MiB |
请注意,GPU 内存使用情况仅包括在批量大小为 32 的 NVIDIA T4 GPU 上实际模型消耗的 GPU 内存。它不包括 ONNX Runtime 初始化时消耗的固定内存量,该内存量根据使用的 GPU 不同,大约在 0.5 到 1 GiB 之间。
要求
- 最低 Sinequa 版本:11.10.0
- 使用 FP16 模型和 CUDA 计算能力为 8.9+(如 NVIDIA L4)的 GPU 时,最低 Sinequa 版本:11.11.0
- CUDA 计算能力:高于 5.0(使用 FP16 时高于 6.0)
📚 详细文档
模型详情
概述
训练数据
该模型使用了 all - MiniLM - L6 - v2 模型中引用的所有数据集进行训练。此外,该模型还在 这篇论文 中引用的前 9 种上述语言的数据集上进行了训练。它还在 这个数据集 上进行了波兰语能力的训练,并使用 msmarco - zh 的翻译版本进行了繁体中文能力的训练。
评估指标
英语
为了确定相关性分数,我们对在 [BEIR 基准](https://github.com/beir - cellar/beir) 的数据集上评估得到的结果进行了平均。请注意,所有这些数据集均为英语。
数据集 |
Recall@100 |
平均值 |
0.616 |
Arguana |
0.956 |
CLIMATE - FEVER |
0.471 |
DBPedia Entity |
0.379 |
FEVER |
0.824 |
FiQA - 2018 |
0.642 |
HotpotQA |
0.579 |
MS MARCO |
0.85 |
NFCorpus |
0.289 |
NQ |
0.765 |
Quora |
0.993 |
SCIDOCS |
0.467 |
SciFact |
0.899 |
TREC - COVID |
0.104 |
Webis - Touche - 2020 |
0.407 |
繁体中文
该模型具备繁体中文能力,在 msmarco - zh 的开发集的繁体中文翻译版本上进行评估。
数据集 |
Recall@100 |
msmarco - zh - traditional |
0.738 |
相比之下,raspberry 在该数据集上的得分是 0.693。
其他语言
我们在 [MIRACL 基准](https://github.com/project - miracl/miracl) 的数据集上评估了该模型的多语言能力。请注意,并非所有训练语言都包含在该基准中,因此我们仅报告现有语言的指标。
语言 |
Recall@100 |
法语 |
0.672 |
德语 |
0.594 |
西班牙语 |
0.632 |
日语 |
0.603 |
中文(简体) |
0.702 |