vectorizer-v1-S-multilingual開源多語言向量化器 - 免費生成向量用於信息檢索

首頁

Vectorizer V1 S Multilingual

由sinequa開發

Sinequa開發的多語言向量化器，能夠為輸入的段落或查詢生成嵌入向量，用於相似度計算和信息檢索。

文本嵌入

Transformers

支持多種語言#多語言向量化 #高效檢索 #低延遲推理

下載量 322

發布時間 : 7/10/2023

模型概述

該模型是基於BERT-Small架構的多語言特徵提取器，主要用於句子相似度計算和信息檢索任務，支持英語、法語、德語和西班牙語四種語言。

模型特點

多語言支持

支持英語、法語、德語和西班牙語四種語言的文本處理

高效推理

在不同GPU上均表現出高效的推理速度，FP16量化下批處理32個樣本僅需5毫秒

大小寫不敏感

對文本的大小寫和重音不敏感，提高檢索魯棒性

批內負樣本訓練

採用查詢-段落對和批內負樣本的訓練方法優化向量表示

模型能力

文本向量化

多語言文本處理

語義相似度計算

信息檢索

使用案例

信息檢索

文檔檢索系統

構建基於語義相似度的文檔檢索系統

在BEIR基準測試中平均Recall@100達到0.448

多語言問答系統

支持多種語言的問答系統後端

在MIRACL基準測試中法語Recall@100達到0.583

🚀 `vectorizer-v1-S-multilingual` 模型卡片

vectorizer-v1-S-multilingual 是由 Sinequa 開發的一款向量化器。它可以根據給定的段落或查詢生成嵌入向量。段落向量會存儲在向量索引中，而查詢向量則用於在查詢時在索引中查找相關段落。

🚀 快速開始

本模型可用於生成文本的嵌入向量，支持多種語言，適用於文本相似度計算等場景。

✨ 主要特性

多語言支持：支持英語、法語、德語和西班牙語。
大小寫和重音不敏感：在處理文本時不受大小寫和重音的影響。

📦 安裝指南

環境要求

最低 Sinequa 版本：11.10.0
若要使用 FP16 模型以及具有 CUDA 計算能力 8.9+ 的 GPU（如 NVIDIA L4），最低 Sinequa 版本為 11.11.0
Cuda 計算能力：高於 5.0（使用 FP16 時需高於 6.0）

💻 使用示例

本 README 未提供代碼示例，若有使用需求，可參考 Sinequa 官方文檔或相關開發指南。

📚 詳細文檔

支持的語言

該模型在以下語言上進行了訓練和測試：

英語
法語
德語
西班牙語

分數

指標	值
相關性（Recall@100）	0.448

請注意，相關性分數是在 14 個檢索數據集上的平均值（詳見評估指標）。

推理時間

GPU	量化類型	批量大小 1	批量大小 32
NVIDIA A10	FP16	1 ms	5 ms
NVIDIA A10	FP32	3 ms	14 ms
NVIDIA T4	FP16	1 ms	12 ms
NVIDIA T4	FP32	2 ms	52 ms
NVIDIA L4	FP16	1 ms	5 ms
NVIDIA L4	FP32	2 ms	18 ms

GPU 內存使用情況

量化類型	內存
FP16	300 MiB
FP32	600 MiB

請注意，GPU 內存使用情況僅包括在批量大小為 32 的 NVIDIA T4 GPU 上實際模型消耗的 GPU 內存。它不包括 ONNX Runtime 初始化時消耗的固定內存量，該內存量根據使用的 GPU 不同，大約在 0.5 到 1 GiB 之間。

模型詳情

概述

參數數量：3900 萬
基礎語言模型：Sinequa 自研的 BERT-Small（論文），在四種支持的語言上進行了預訓練
大小寫和重音不敏感
訓練過程：使用批次內負樣本的查詢 - 段落對

訓練數據

自然問題數據集 (論文, 官方頁面)
- 原始英語數據集
- 其他三種支持語言的翻譯數據集

評估指標

為了確定相關性分數，我們對在 BEIR 基準數據集上的評估結果進行了平均。請注意，所有這些數據集均為英語。

數據集	Recall@100
平均值	0.448
Arguana	0.835
CLIMATE - FEVER	0.350
DBPedia Entity	0.287
FEVER	0.645
FiQA - 2018	0.305
HotpotQA	0.396
MS MARCO	0.533
NFCorpus	0.162
NQ	0.701
Quora	0.947
SCIDOCS	0.194
SciFact	0.580
TREC - COVID	0.051
Webis - Touche - 2020	0.289

我們在 MIRACL 基準的數據集上對模型進行了評估，以測試其多語言能力。請注意，並非所有訓練語言都包含在該基準中，因此我們僅報告現有語言的指標。

語言	Recall@100
法語	0.583
德語	0.524
西班牙語	0.483

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫