V

Vectorizer V1 S Multilingual

由sinequa開發
Sinequa開發的多語言向量化器,能夠為輸入的段落或查詢生成嵌入向量,用於相似度計算和信息檢索。
下載量 322
發布時間 : 7/10/2023

模型概述

該模型是基於BERT-Small架構的多語言特徵提取器,主要用於句子相似度計算和信息檢索任務,支持英語、法語、德語和西班牙語四種語言。

模型特點

多語言支持
支持英語、法語、德語和西班牙語四種語言的文本處理
高效推理
在不同GPU上均表現出高效的推理速度,FP16量化下批處理32個樣本僅需5毫秒
大小寫不敏感
對文本的大小寫和重音不敏感,提高檢索魯棒性
批內負樣本訓練
採用查詢-段落對和批內負樣本的訓練方法優化向量表示

模型能力

文本向量化
多語言文本處理
語義相似度計算
信息檢索

使用案例

信息檢索
文檔檢索系統
構建基於語義相似度的文檔檢索系統
在BEIR基準測試中平均Recall@100達到0.448
多語言問答系統
支持多種語言的問答系統後端
在MIRACL基準測試中法語Recall@100達到0.583
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase