🚀 多语言-e5-large-instruct-Q5_0-GGUF
本项目将模型从 intfloat/multilingual-e5-large-instruct
转换为 GGUF 格式,转换借助 llama.cpp 并通过 ggml.ai 的 GGUF-my-repo 空间完成。若需了解模型的更多详情,可参考 原始模型卡片。
🚀 快速开始
使用 llama.cpp
可以通过 Homebrew(适用于 Mac 和 Linux)来安装 llama.cpp:
brew install llama.cpp
之后可以调用 llama.cpp 的服务器或命令行界面(CLI)。
命令行界面(CLI)
llama-cli --hf-repo yoeven/multilingual-e5-large-instruct-Q5_0-GGUF --hf-file multilingual-e5-large-instruct-q5_0.gguf -p "The meaning to life and the universe is"
服务器
llama-server --hf-repo yoeven/multilingual-e5-large-instruct-Q5_0-GGUF --hf-file multilingual-e5-large-instruct-q5_0.gguf -c 2048
注意:你也可以直接按照 Llama.cpp 仓库中列出的 使用步骤 来使用此检查点。
- 从 GitHub 克隆 llama.cpp 仓库:
git clone https://github.com/ggerganov/llama.cpp
- 进入 llama.cpp 文件夹,并使用
LLAMA_CURL=1
标志以及其他特定于硬件的标志(例如,在 Linux 上使用英伟达 GPU 时使用 LLAMA_CUDA=1
)进行编译:
cd llama.cpp && LLAMA_CURL=1 make
- 通过主二进制文件运行推理:
./llama-cli --hf-repo yoeven/multilingual-e5-large-instruct-Q5_0-GGUF --hf-file multilingual-e5-large-instruct-q5_0.gguf -p "The meaning to life and the universe is"
或者
./llama-server --hf-repo yoeven/multilingual-e5-large-instruct-Q5_0-GGUF --hf-file multilingual-e5-large-instruct-q5_0.gguf -c 2048
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
从 intfloat/multilingual-e5-large-instruct 转换而来的 GGUF 格式模型 |
训练数据 |
未提及 |
支持语言
该模型支持以下多种语言:
多语言、南非语(af)、阿姆哈拉语(am)、阿拉伯语(ar)、阿萨姆语(as)、阿塞拜疆语(az)、白俄罗斯语(be)、保加利亚语(bg)、孟加拉语(bn)、布列塔尼语(br)、波斯尼亚语(bs)、加泰罗尼亚语(ca)、捷克语(cs)、威尔士语(cy)、丹麦语(da)、德语(de)、希腊语(el)、英语(en)、世界语(eo)、西班牙语(es)、爱沙尼亚语(et)、巴斯克语(eu)、波斯语(fa)、芬兰语(fi)、法语(fr)、弗里西亚语(fy)、爱尔兰语(ga)、苏格兰盖尔语(gd)、加利西亚语(gl)、古吉拉特语(gu)、豪萨语(ha)、希伯来语(he)、印地语(hi)、克罗地亚语(hr)、匈牙利语(hu)、亚美尼亚语(hy)、印尼语(id)、冰岛语(is)、意大利语(it)、日语(ja)、爪哇语(jv)、格鲁吉亚语(ka)、哈萨克语(kk)、高棉语(km)、卡纳达语(kn)、韩语(ko)、库尔德语(ku)、吉尔吉斯语(ky)、拉丁语(la)、老挝语(lo)、立陶宛语(lt)、拉脱维亚语(lv)、马达加斯加语(mg)、马其顿语(mk)、马拉雅拉姆语(ml)、蒙古语(mn)、马拉地语(mr)、马来语(ms)、缅甸语(my)、尼泊尔语(ne)、荷兰语(nl)、挪威语(no)、奥罗莫语(om)、奥里亚语(or)、旁遮普语(pa)、波兰语(pl)、普什图语(ps)、葡萄牙语(pt)、罗马尼亚语(ro)、俄语(ru)、梵语(sa)、信德语(sd)、僧伽罗语(si)、斯洛伐克语(sk)、斯洛文尼亚语(sl)、索马里语(so)、阿尔巴尼亚语(sq)、塞尔维亚语(sr)、巽他语(su)、瑞典语(sv)、斯瓦希里语(sw)、泰米尔语(ta)、泰卢固语(te)、泰语(th)、他加禄语(tl)、土耳其语(tr)、维吾尔语(ug)、乌克兰语(uk)、乌尔都语(ur)、乌兹别克语(uz)、越南语(vi)、科萨语(xh)、意第绪语(yi)、中文(zh)
评估指标
该模型在多个任务和数据集上进行了评估,以下是部分评估结果:
分类任务
- MTEB AmazonCounterfactualClassification (en)
- 准确率(accuracy):76.23880597014924
- 平均精度(ap):39.07351965022687
- F1 值(f1):70.04836733862683
- MTEB AmazonPolarityClassification
- 准确率(accuracy):96.28742500000001
- 平均精度(ap):94.8449918887462
- F1 值(f1):96.28680923610432
检索任务
- MTEB ArguAna
- MAP@1:31.721
- MAP@10:49.221
- MAP@100:49.884
- MAP@1000:49.888
- MRR@1:32.432
- MRR@10:49.5
- MRR@100:50.163000000000004
- MRR@1000:50.166
- NDCG@1:31.721
- NDCG@10:58.384
- NDCG@100:61.111000000000004
- NDCG@1000:61.187999999999995
聚类任务
- MTEB ArxivClusteringP2P
- V-measure:46.40419580759799
- MTEB ArxivClusteringS2S
- V-measure:40.48593255007969
重排序任务
- MTEB AskUbuntuDupQuestions
- MAP:63.889179122289995
- MRR:77.61146286769556
语义文本相似度任务(STS)
- MTEB BIOSSES
- 余弦相似度皮尔逊相关系数(cos_sim_pearson):88.15075203727929
- 余弦相似度斯皮尔曼相关系数(cos_sim_spearman):86.9622224570873
- 欧几里得距离皮尔逊相关系数(euclidean_pearson):86.70473853624121
- 欧几里得距离斯皮尔曼相关系数(euclidean_spearman):86.9622224570873
双语挖掘任务
- MTEB BUCC (de-en)
- 准确率(accuracy):99.65553235908142
- F1 值(f1):99.60681976339595
- 精度(precision):99.58246346555325
- 召回率(recall):99.65553235908142
许可证
该模型使用 MIT 许可证。