🚀 vectorizer.raspberry
模型卡片
vectorizer.raspberry
是由 Sinequa 開發的向量器模型。它可以根據給定的段落或查詢生成嵌入向量。段落向量會存儲在向量索引中,查詢向量則用於在查詢時在索引中查找相關段落。
🚀 快速開始
本模型支持多種語言,可直接用於生成向量進行相似度計算等任務。
✨ 主要特性
- 多語言支持:支持英語、法語、德語、西班牙語、意大利語、荷蘭語、日語、葡萄牙語和簡體中文等語言,對基礎模型預訓練使用的另外 91 種語言也有基本支持。
- 大小寫和重音不敏感:在處理文本時不受大小寫和重音的影響。
- 低維度輸出:輸出維度為 256,通過額外的密集層進行降維。
📦 安裝指南
環境要求
- 最低 Sinequa 版本:11.10.0
- 使用 FP16 模型和 CUDA 計算能力為 8.9+ 的 GPU(如 NVIDIA L4)的最低 Sinequa 版本:11.11.0
- CUDA 計算能力:高於 5.0(使用 FP16 時高於 6.0)
💻 使用示例
本 README 未提供具體代碼示例,你可以根據模型的功能和自身需求,利用相關的開發工具和框架進行調用。
📚 詳細文檔
支持語言
該模型在以下語言上進行了訓練和測試:
- 英語
- 法語
- 德語
- 西班牙語
- 意大利語
- 荷蘭語
- 日語
- 葡萄牙語
- 簡體中文
此外,對基礎模型預訓練使用的另外 91 種語言也有基本支持(詳見 XLM - R 論文附錄 A)。
得分
指標 |
值 |
相關性(Recall@100) |
0.613 |
請注意,相關性得分是在 14 個檢索數據集上的平均值(詳見評估指標)。
推理時間
GPU |
量化類型 |
批量大小 1 |
批量大小 32 |
NVIDIA A10 |
FP16 |
1 ms |
5 ms |
NVIDIA A10 |
FP32 |
2 ms |
18 ms |
NVIDIA T4 |
FP16 |
1 ms |
12 ms |
NVIDIA T4 |
FP32 |
3 ms |
52 ms |
NVIDIA L4 |
FP16 |
2 ms |
5 ms |
NVIDIA L4 |
FP32 |
4 ms |
24 ms |
GPU 內存使用
量化類型 |
內存 |
FP16 |
550 MiB |
FP32 |
1050 MiB |
請注意,GPU 內存使用僅包括在 NVIDIA T4 GPU 上批量大小為 32 時實際模型消耗的 GPU 內存。不包括 ONNX Runtime 初始化時消耗的固定內存,這部分內存根據使用的 GPU 不同,大約在 0.5 到 1 GiB 之間。
模型詳情
概述
訓練數據
該模型使用了 all - MiniLM - L6 - v2 模型引用的所有數據集進行訓練。此外,還在 這篇論文 引用的 9 種上述語言的數據集上進行了訓練。
評估指標
為了確定相關性得分,我們對在 [BEIR 基準](https://github.com/beir - cellar/beir) 數據集上的評估結果進行了平均。請注意,所有這些數據集均為英文。
數據集 |
Recall@100 |
平均值 |
0.613 |
Arguana |
0.957 |
CLIMATE - FEVER |
0.468 |
DBPedia Entity |
0.377 |
FEVER |
0.820 |
FiQA - 2018 |
0.639 |
HotpotQA |
0.560 |
MS MARCO |
0.845 |
NFCorpus |
0.287 |
NQ |
0.756 |
Quora |
0.992 |
SCIDOCS |
0.456 |
SciFact |
0.906 |
TREC - COVID |
0.100 |
Webis - Touche - 2020 |
0.413 |
我們在 [MIRACL 基準](https://github.com/project - miracl/miracl) 的數據集上對模型進行了評估,以測試其多語言能力。請注意,並非所有訓練語言都包含在該基準中,因此我們僅報告現有語言的指標。
語言 |
Recall@100 |
法語 |
0.650 |
德語 |
0.528 |
西班牙語 |
0.602 |
日語 |
0.614 |
簡體中文 |
0.680 |
🔧 技術細節
本模型基於 mMiniLMv2 - L6 - H384 - distilled - from - XLMR - Large
基礎語言模型,通過特定的訓練策略和數據進行訓練,以實現多語言的句子相似度計算和特徵提取功能。在訓練過程中,針對不同類型的數據集採用了不同的訓練方式,同時利用批次內負樣本策略擴充負樣本數量。
📄 許可證
原文檔未提及許可證信息。