vectorizer.raspberry開源向量化器 - 免費生成嵌入向量用於句子相似度計算和檢索

首頁

Vectorizer.raspberry

由sinequa開發

由Sinequa開發的向量化器，能夠根據輸入的段落或查詢生成嵌入向量，用於句子相似度計算和檢索任務。

文本嵌入

Transformers

支持多種語言#多語言嵌入 #低延遲檢索 #跨語言相似度

下載量 408

發布時間 : 7/11/2023

模型概述

該模型是一個特徵提取和句子相似度計算模型，主要用於生成段落和查詢的嵌入向量，支持多語言文本處理。

模型特點

多語言支持

支持9種主要語言，併兼容基礎模型預訓練時的其他91種語言。

高效推理

在NVIDIA A10 GPU上，FP16量化下批大小1的推理時間僅需1毫秒。

不敏感處理

對文本大小寫和重音不敏感，提高了模型的魯棒性。

降維輸出

通過額外的密集層將輸出維度降至256，優化了存儲和計算效率。

模型能力

多語言文本嵌入

句子相似度計算

段落向量化

查詢向量化

跨語言檢索

使用案例

信息檢索

文檔檢索

使用查詢向量查找相關文檔段落

在BEIR基準測試中平均Recall@100達到0.613

多語言應用

跨語言搜索

支持多種語言的文本相似度計算和檢索

在MIRACL基準測試中，中文Recall@100達到0.680

🚀 `vectorizer.raspberry` 模型卡片

vectorizer.raspberry 是由 Sinequa 開發的向量器模型。它可以根據給定的段落或查詢生成嵌入向量。段落向量會存儲在向量索引中，查詢向量則用於在查詢時在索引中查找相關段落。

🚀 快速開始

本模型支持多種語言，可直接用於生成向量進行相似度計算等任務。

✨ 主要特性

多語言支持：支持英語、法語、德語、西班牙語、意大利語、荷蘭語、日語、葡萄牙語和簡體中文等語言，對基礎模型預訓練使用的另外 91 種語言也有基本支持。
大小寫和重音不敏感：在處理文本時不受大小寫和重音的影響。
低維度輸出：輸出維度為 256，通過額外的密集層進行降維。

📦 安裝指南

環境要求

最低 Sinequa 版本：11.10.0
使用 FP16 模型和 CUDA 計算能力為 8.9+ 的 GPU（如 NVIDIA L4）的最低 Sinequa 版本：11.11.0
CUDA 計算能力：高於 5.0（使用 FP16 時高於 6.0）

💻 使用示例

本 README 未提供具體代碼示例，你可以根據模型的功能和自身需求，利用相關的開發工具和框架進行調用。

📚 詳細文檔

支持語言

該模型在以下語言上進行了訓練和測試：

英語
法語
德語
西班牙語
意大利語
荷蘭語
日語
葡萄牙語
簡體中文

此外，對基礎模型預訓練使用的另外 91 種語言也有基本支持（詳見 XLM - R 論文附錄 A）。

得分

指標	值
相關性（Recall@100）	0.613

請注意，相關性得分是在 14 個檢索數據集上的平均值（詳見評估指標）。

推理時間

GPU	量化類型	批量大小 1	批量大小 32
NVIDIA A10	FP16	1 ms	5 ms
NVIDIA A10	FP32	2 ms	18 ms
NVIDIA T4	FP16	1 ms	12 ms
NVIDIA T4	FP32	3 ms	52 ms
NVIDIA L4	FP16	2 ms	5 ms
NVIDIA L4	FP32	4 ms	24 ms

GPU 內存使用

量化類型	內存
FP16	550 MiB
FP32	1050 MiB

請注意，GPU 內存使用僅包括在 NVIDIA T4 GPU 上批量大小為 32 時實際模型消耗的 GPU 內存。不包括 ONNX Runtime 初始化時消耗的固定內存，這部分內存根據使用的 GPU 不同，大約在 0.5 到 1 GiB 之間。

模型詳情

概述

參數數量：1.07 億
基礎語言模型：mMiniLMv2 - L6 - H384 - distilled - from - XLMR - Large (論文, GitHub)
大小寫和重音不敏感
輸出維度：256（通過額外的密集層降維）
訓練過程：對於有挖掘困難負樣本數據的數據集，使用查詢 - 段落 - 負樣本三元組；其餘使用查詢 - 段落對。負樣本數量通過批次內負樣本策略進行擴充

訓練數據

該模型使用了 all - MiniLM - L6 - v2 模型引用的所有數據集進行訓練。此外，還在這篇論文引用的 9 種上述語言的數據集上進行了訓練。

評估指標

為了確定相關性得分，我們對在 [BEIR 基準](https://github.com/beir - cellar/beir) 數據集上的評估結果進行了平均。請注意，所有這些數據集均為英文。

數據集	Recall@100
平均值	0.613
Arguana	0.957
CLIMATE - FEVER	0.468
DBPedia Entity	0.377
FEVER	0.820
FiQA - 2018	0.639
HotpotQA	0.560
MS MARCO	0.845
NFCorpus	0.287
NQ	0.756
Quora	0.992
SCIDOCS	0.456
SciFact	0.906
TREC - COVID	0.100
Webis - Touche - 2020	0.413

我們在 [MIRACL 基準](https://github.com/project - miracl/miracl) 的數據集上對模型進行了評估，以測試其多語言能力。請注意，並非所有訓練語言都包含在該基準中，因此我們僅報告現有語言的指標。

語言	Recall@100
法語	0.650
德語	0.528
西班牙語	0.602
日語	0.614
簡體中文	0.680

🔧 技術細節

本模型基於 mMiniLMv2 - L6 - H384 - distilled - from - XLMR - Large 基礎語言模型，通過特定的訓練策略和數據進行訓練，以實現多語言的句子相似度計算和特徵提取功能。在訓練過程中，針對不同類型的數據集採用了不同的訓練方式，同時利用批次內負樣本策略擴充負樣本數量。