🚀 多語言-e5-small量化版模型
本項目是 multilingual-e5-small 的量化版本。量化是在每層進行的,條件與我們的 ELSERv2 模型相同,具體可參考 此處 的描述。該模型可用於句子相似度計算,支持多種語言。
🚀 快速開始
本模型是基於論文 Text Embeddings by Weakly-Supervised Contrastive Pre-training 開發的。論文作者為 Liang Wang、Nan Yang、Xiaolong Huang、Binxing Jiao、Linjun Yang、Daxin Jiang、Rangan Majumder、Furu Wei,於 2022 年發表在 arXiv 上。
✨ 主要特性
📚 詳細文檔
基準測試
我們進行了一系列小型基準測試,以評估量化模型相對於原始基準模型在質量和推理延遲方面的變化。
質量評估
-
特定語言質量:使用 MIRACL 數據集的開發集,通過測量 NDCG@10 來評估特定語言的質量。從結果來看,量化模型的質量大多隻有微小變化。
| 語言 | multilingual-e5-small | multilingual-e5-small-optimized |
| ---- | ---- | ---- |
| 德語 (de) | 0.75862 | 0.75992 |
| 約魯巴語 (yo) | 0.56193 | 0.48934 |
| 俄語 (ru) | 0.80309 | 0.79668 |
| 阿拉伯語 (ar) | 0.82778 | 0.82017 |
| 西班牙語 (es) | 0.81672 | 0.8135 |
| 泰語 (th) | 0.85072 | 0.84316 |
-
英語跨領域性能:使用 BEIR 評估中各種數據集的測試集來測試英語的跨領域性能。測量 NDCG@10 時,我們發現 SCIFACT 數據集的變化較大,而其他評估數據集的變化較小。
| 數據集 | multilingual-e5-small | multilingual-e5-small-optimized |
| ---- | ---- | ---- |
| FIQA | 0.33126 | 0.31734 |
| SCIFACT | 0.677 | 0.65484 |
| nfcorpus | 0.31004 | 0.30126 |
性能評估
使用為 Linux 和英特爾 CPU 跟蹤的 PyTorch 模型,我們對不同輸入長度進行了性能基準測試。總體而言,優化後的模型平均有 20 - 50% 的性能提升。
輸入長度(字符) |
multilingual-e5-small |
multilingual-e5-small-optimized |
加速比 |
0 - 50 |
0.0181 |
0.00826 |
54.36% |
50 - 100 |
0.0275 |
0.0164 |
40.36% |
100 - 150 |
0.0366 |
0.0237 |
35.25% |
150 - 200 |
0.0435 |
0.0301 |
30.80% |
200 - 250 |
0.0514 |
0.0379 |
26.26% |
250 - 300 |
0.0569 |
0.043 |
24.43% |
300 - 350 |
0.0663 |
0.0513 |
22.62% |
350 - 400 |
0.0737 |
0.0576 |
21.85% |
免責聲明
此 e5 模型在與我們的其他 Elastic 軟件一起定義、託管、集成和使用時,受我們的標準保修條款覆蓋。
📄 許可證
本項目採用 MIT 許可證。
支持語言信息
屬性 |
詳情 |
模型類型 |
句子相似度計算模型 |
支持語言 |
多語言,包括南非語 (af)、阿姆哈拉語 (am)、阿拉伯語 (ar)、阿薩姆語 (as)、阿塞拜疆語 (az)、白俄羅斯語 (be)、保加利亞語 (bg)、孟加拉語 (bn)、布列塔尼語 (br)、波斯尼亞語 (bs)、加泰羅尼亞語 (ca)、捷克語 (cs)、威爾士語 (cy)、丹麥語 (da)、德語 (de)、希臘語 (el)、英語 (en)、世界語 (eo)、西班牙語 (es)、愛沙尼亞語 (et)、巴斯克語 (eu)、波斯語 (fa)、芬蘭語 (fi)、法語 (fr)、弗裡西亞語 (fy)、愛爾蘭語 (ga)、蘇格蘭蓋爾語 (gd)、加利西亞語 (gl)、古吉拉特語 (gu)、豪薩語 (ha)、希伯來語 (he)、印地語 (hi)、克羅地亞語 (hr)、匈牙利語 (hu)、亞美尼亞語 (hy)、印尼語 (id)、冰島語 (is)、意大利語 (it)、日語 (ja)、爪哇語 (jv)、格魯吉亞語 (ka)、哈薩克語 (kk)、高棉語 (km)、卡納達語 (kn)、韓語 (ko)、庫爾德語 (ku)、吉爾吉斯語 (ky)、拉丁語 (la)、老撾語 (lo)、立陶宛語 (lt)、拉脫維亞語 (lv)、馬爾加什語 (mg)、馬其頓語 (mk)、馬拉雅拉姆語 (ml)、蒙古語 (mn)、馬拉地語 (mr)、馬來語 (ms)、緬甸語 (my)、尼泊爾語 (ne)、荷蘭語 (nl)、挪威語 (no)、奧羅莫語 (om)、奧里亞語 (or)、旁遮普語 (pa)、波蘭語 (pl)、普什圖語 (ps)、葡萄牙語 (pt)、羅馬尼亞語 (ro)、俄語 (ru)、梵語 (sa)、信德語 (sd)、僧伽羅語 (si)、斯洛伐克語 (sk)、斯洛文尼亞語 (sl)、索馬里語 (so)、阿爾巴尼亞語 (sq)、塞爾維亞語 (sr)、巽他語 (su)、瑞典語 (sv)、斯瓦希里語 (sw)、泰米爾語 (ta)、泰盧固語 (te)、泰語 (th)、他加祿語 (tl)、土耳其語 (tr)、維吾爾語 (ug)、烏克蘭語 (uk)、烏爾都語 (ur)、烏茲別克語 (uz)、越南語 (vi)、科薩語 (xh)、意第緒語 (yi)、中文 (zh) |