🚀 falan42/multilingual-e5-large-pooled-Q8_0-GGUF
該模型是通過 llama.cpp 並藉助 ggml.ai 的 GGUF-my-repo 空間,從 Hiveurban/multilingual-e5-large-pooled
轉換為 GGUF 格式的。如需瞭解該模型的更多詳細信息,請參考原始模型卡片。
🚀 快速開始
✨ 主要特性
- 支持多語言,涵蓋了眾多不同語系的語言,如英語、中文、日語、阿拉伯語等。
- 經過轉換為 GGUF 格式,可方便地在 llama.cpp 中使用。
📦 安裝指南
通過 brew(適用於 Mac 和 Linux)安裝 llama.cpp:
brew install llama.cpp
💻 使用示例
基礎用法
使用 llama.cpp 的 CLI 進行推理:
llama-cli --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -p "The meaning to life and the universe is"
使用 llama.cpp 的服務器模式:
llama-server --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -c 2048
高級用法
你也可以直接按照 Llama.cpp 倉庫中列出的使用步驟使用該檢查點:
步驟 1:從 GitHub 克隆 llama.cpp:
git clone https://github.com/ggerganov/llama.cpp
步驟 2:進入 llama.cpp 文件夾,並使用 LLAMA_CURL=1
標誌以及其他特定硬件標誌(例如,在 Linux 上使用 Nvidia GPU 時使用 LLAMA_CUDA=1
)進行編譯:
cd llama.cpp && LLAMA_CURL=1 make
步驟 3:通過主二進制文件運行推理:
./llama-cli --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -p "The meaning to life and the universe is"
或者
./llama-server --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -c 2048
📚 詳細文檔
該模型支持的語言列表如下:
語言代碼 |
語言名稱 |
af |
南非荷蘭語 |
am |
阿姆哈拉語 |
ar |
阿拉伯語 |
as |
阿薩姆語 |
az |
阿塞拜疆語 |
be |
白俄羅斯語 |
bg |
保加利亞語 |
bn |
孟加拉語 |
br |
布列塔尼語 |
bs |
波斯尼亞語 |
ca |
加泰羅尼亞語 |
cs |
捷克語 |
cy |
威爾士語 |
da |
丹麥語 |
de |
德語 |
el |
希臘語 |
en |
英語 |
eo |
世界語 |
es |
西班牙語 |
et |
愛沙尼亞語 |
eu |
巴斯克語 |
fa |
波斯語 |
fi |
芬蘭語 |
fr |
法語 |
fy |
弗裡西語 |
ga |
愛爾蘭語 |
gd |
蘇格蘭蓋爾語 |
gl |
加利西亞語 |
gu |
古吉拉特語 |
ha |
豪薩語 |
he |
希伯來語 |
hi |
印地語 |
hr |
克羅地亞語 |
hu |
匈牙利語 |
hy |
亞美尼亞語 |
id |
印尼語 |
is |
冰島語 |
it |
意大利語 |
ja |
日語 |
jv |
爪哇語 |
ka |
格魯吉亞語 |
kk |
哈薩克語 |
km |
高棉語 |
kn |
卡納達語 |
ko |
韓語 |
ku |
庫爾德語 |
ky |
吉爾吉斯語 |
la |
拉丁語 |
lo |
老撾語 |
lt |
立陶宛語 |
lv |
拉脫維亞語 |
mg |
馬爾加什語 |
mk |
馬其頓語 |
ml |
馬拉雅拉姆語 |
mn |
蒙古語 |
mr |
馬拉地語 |
ms |
馬來語 |
my |
緬甸語 |
ne |
尼泊爾語 |
nl |
荷蘭語 |
no |
挪威語 |
om |
奧羅莫語 |
or |
奧里亞語 |
pa |
旁遮普語 |
pl |
波蘭語 |
ps |
普什圖語 |
pt |
葡萄牙語 |
ro |
羅馬尼亞語 |
ru |
俄語 |
sa |
梵語 |
sd |
信德語 |
si |
僧伽羅語 |
sk |
斯洛伐克語 |
sl |
斯洛文尼亞語 |
so |
索馬里語 |
sq |
阿爾巴尼亞語 |
sr |
塞爾維亞語 |
su |
巽他語 |
sv |
瑞典語 |
sw |
斯瓦希里語 |
ta |
泰米爾語 |
te |
泰盧固語 |
th |
泰語 |
tl |
他加祿語 |
tr |
土耳其語 |
ug |
維吾爾語 |
uk |
烏克蘭語 |
ur |
烏爾都語 |
uz |
烏茲別克語 |
vi |
越南語 |
xh |
科薩語 |
yi |
意第緒語 |
zh |
中文 |
🔧 技術細節
該模型在多個任務和數據集上進行了測試,以下是部分測試結果:
分類任務
- MTEB AmazonCounterfactualClassification (en):準確率為 79.05970149253731,平均精度為 43.486574390835635,F1 值為 73.32700092140148。
- MTEB AmazonPolarityClassification:準確率為 93.489875,平均精度為 90.98758636917603,F1 值為 93.48554819717332。
檢索任務
- MTEB ArguAna:在不同召回率下的平均精度均值(MAP)和平均倒數排名(MRR)等指標表現良好,如
map_at_1
為 30.725,mrr_at_1
為 31.152。
聚類任務
- MTEB ArxivClusteringP2P:V 測度值為 44.30960650674069。
重排序任務
- MTEB AskUbuntuDupQuestions:平均精度均值(MAP)為 60.28270056031872,平均倒數排名(MRR)為 74.38332673789738。
語義文本相似度任務
- MTEB BIOSSES:餘弦相似度的皮爾遜相關係數為 84.05942144105269,斯皮爾曼相關係數為 82.51212105850809。
📄 許可證
該模型的許可證為 MIT 許可證。