🚀 falan42/multilingual-e5-large-pooled-Q8_0-GGUF
该模型是通过 llama.cpp 并借助 ggml.ai 的 GGUF-my-repo 空间,从 Hiveurban/multilingual-e5-large-pooled
转换为 GGUF 格式的。如需了解该模型的更多详细信息,请参考原始模型卡片。
🚀 快速开始
✨ 主要特性
- 支持多语言,涵盖了众多不同语系的语言,如英语、中文、日语、阿拉伯语等。
- 经过转换为 GGUF 格式,可方便地在 llama.cpp 中使用。
📦 安装指南
通过 brew(适用于 Mac 和 Linux)安装 llama.cpp:
brew install llama.cpp
💻 使用示例
基础用法
使用 llama.cpp 的 CLI 进行推理:
llama-cli --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -p "The meaning to life and the universe is"
使用 llama.cpp 的服务器模式:
llama-server --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -c 2048
高级用法
你也可以直接按照 Llama.cpp 仓库中列出的使用步骤使用该检查点:
步骤 1:从 GitHub 克隆 llama.cpp:
git clone https://github.com/ggerganov/llama.cpp
步骤 2:进入 llama.cpp 文件夹,并使用 LLAMA_CURL=1
标志以及其他特定硬件标志(例如,在 Linux 上使用 Nvidia GPU 时使用 LLAMA_CUDA=1
)进行编译:
cd llama.cpp && LLAMA_CURL=1 make
步骤 3:通过主二进制文件运行推理:
./llama-cli --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -p "The meaning to life and the universe is"
或者
./llama-server --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -c 2048
📚 详细文档
该模型支持的语言列表如下:
语言代码 |
语言名称 |
af |
南非荷兰语 |
am |
阿姆哈拉语 |
ar |
阿拉伯语 |
as |
阿萨姆语 |
az |
阿塞拜疆语 |
be |
白俄罗斯语 |
bg |
保加利亚语 |
bn |
孟加拉语 |
br |
布列塔尼语 |
bs |
波斯尼亚语 |
ca |
加泰罗尼亚语 |
cs |
捷克语 |
cy |
威尔士语 |
da |
丹麦语 |
de |
德语 |
el |
希腊语 |
en |
英语 |
eo |
世界语 |
es |
西班牙语 |
et |
爱沙尼亚语 |
eu |
巴斯克语 |
fa |
波斯语 |
fi |
芬兰语 |
fr |
法语 |
fy |
弗里西语 |
ga |
爱尔兰语 |
gd |
苏格兰盖尔语 |
gl |
加利西亚语 |
gu |
古吉拉特语 |
ha |
豪萨语 |
he |
希伯来语 |
hi |
印地语 |
hr |
克罗地亚语 |
hu |
匈牙利语 |
hy |
亚美尼亚语 |
id |
印尼语 |
is |
冰岛语 |
it |
意大利语 |
ja |
日语 |
jv |
爪哇语 |
ka |
格鲁吉亚语 |
kk |
哈萨克语 |
km |
高棉语 |
kn |
卡纳达语 |
ko |
韩语 |
ku |
库尔德语 |
ky |
吉尔吉斯语 |
la |
拉丁语 |
lo |
老挝语 |
lt |
立陶宛语 |
lv |
拉脱维亚语 |
mg |
马尔加什语 |
mk |
马其顿语 |
ml |
马拉雅拉姆语 |
mn |
蒙古语 |
mr |
马拉地语 |
ms |
马来语 |
my |
缅甸语 |
ne |
尼泊尔语 |
nl |
荷兰语 |
no |
挪威语 |
om |
奥罗莫语 |
or |
奥里亚语 |
pa |
旁遮普语 |
pl |
波兰语 |
ps |
普什图语 |
pt |
葡萄牙语 |
ro |
罗马尼亚语 |
ru |
俄语 |
sa |
梵语 |
sd |
信德语 |
si |
僧伽罗语 |
sk |
斯洛伐克语 |
sl |
斯洛文尼亚语 |
so |
索马里语 |
sq |
阿尔巴尼亚语 |
sr |
塞尔维亚语 |
su |
巽他语 |
sv |
瑞典语 |
sw |
斯瓦希里语 |
ta |
泰米尔语 |
te |
泰卢固语 |
th |
泰语 |
tl |
他加禄语 |
tr |
土耳其语 |
ug |
维吾尔语 |
uk |
乌克兰语 |
ur |
乌尔都语 |
uz |
乌兹别克语 |
vi |
越南语 |
xh |
科萨语 |
yi |
意第绪语 |
zh |
中文 |
🔧 技术细节
该模型在多个任务和数据集上进行了测试,以下是部分测试结果:
分类任务
- MTEB AmazonCounterfactualClassification (en):准确率为 79.05970149253731,平均精度为 43.486574390835635,F1 值为 73.32700092140148。
- MTEB AmazonPolarityClassification:准确率为 93.489875,平均精度为 90.98758636917603,F1 值为 93.48554819717332。
检索任务
- MTEB ArguAna:在不同召回率下的平均精度均值(MAP)和平均倒数排名(MRR)等指标表现良好,如
map_at_1
为 30.725,mrr_at_1
为 31.152。
聚类任务
- MTEB ArxivClusteringP2P:V 测度值为 44.30960650674069。
重排序任务
- MTEB AskUbuntuDupQuestions:平均精度均值(MAP)为 60.28270056031872,平均倒数排名(MRR)为 74.38332673789738。
语义文本相似度任务
- MTEB BIOSSES:余弦相似度的皮尔逊相关系数为 84.05942144105269,斯皮尔曼相关系数为 82.51212105850809。
📄 许可证
该模型的许可证为 MIT 许可证。