multilingual-e5-large-pooled-Q8_0-GGUF開源模型 - 支持多語言句子相似度計算與特徵提取

首頁

Multilingual E5 Large Pooled Q8 0 GGUF

由falan42開發

多語言E5大型池化模型，支持多種語言的句子相似度計算和特徵提取任務。

文本嵌入支持多種語言開源協議:MIT #多語言嵌入 #文本相似度計算 #跨語言檢索

下載量 56

發布時間 : 5/13/2025

模型概述

這是一個多語言的句子嵌入模型，基於E5架構，能夠處理多種語言的文本並生成高質量的句子嵌入表示。

模型特點

多語言支持

支持超過100種語言的文本處理，包括主流語言和部分小眾語言

高性能句子嵌入

在多種語言的句子相似度任務上表現出色，能夠生成高質量的句子向量表示

MTEB基準測試驗證

在MTEB(Massive Text Embedding Benchmark)多個任務上進行了廣泛評估，性能可靠

模型能力

多語言文本嵌入

句子相似度計算

文本特徵提取

跨語言信息檢索

使用案例

信息檢索

跨語言文檔檢索

使用統一的嵌入空間檢索不同語言的相似文檔

在MTEB BUCC跨語言bitext mining任務上達到97-99%的準確率

文本分類

多語言情感分析

對多種語言的文本進行情感傾向分類

在MTEB EmotionClassification任務上達到46.5%準確率

產品評論分類

對亞馬遜多語言評論進行分類

在MTEB AmazonReviewsClassification任務上英語達到47.56%準確率

問答系統

事實檢索問答

從知識庫中檢索與問題相關的文檔

在MTEB HotpotQA任務上達到84.32%的MRR@10

🚀 falan42/multilingual-e5-large-pooled-Q8_0-GGUF

該模型是通過 llama.cpp 並藉助 ggml.ai 的 GGUF-my-repo 空間，從 Hiveurban/multilingual-e5-large-pooled 轉換為 GGUF 格式的。如需瞭解該模型的更多詳細信息，請參考原始模型卡片。

🚀 快速開始

✨ 主要特性

支持多語言，涵蓋了眾多不同語系的語言，如英語、中文、日語、阿拉伯語等。
經過轉換為 GGUF 格式，可方便地在 llama.cpp 中使用。

📦 安裝指南

通過 brew（適用於 Mac 和 Linux）安裝 llama.cpp：

brew install llama.cpp

💻 使用示例

基礎用法

使用 llama.cpp 的 CLI 進行推理：

llama-cli --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -p "The meaning to life and the universe is"

使用 llama.cpp 的服務器模式：

llama-server --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -c 2048

高級用法

你也可以直接按照 Llama.cpp 倉庫中列出的使用步驟使用該檢查點：步驟 1：從 GitHub 克隆 llama.cpp：

git clone https://github.com/ggerganov/llama.cpp

步驟 2：進入 llama.cpp 文件夾，並使用 LLAMA_CURL=1 標誌以及其他特定硬件標誌（例如，在 Linux 上使用 Nvidia GPU 時使用 LLAMA_CUDA=1）進行編譯：

cd llama.cpp && LLAMA_CURL=1 make

步驟 3：通過主二進制文件運行推理：

./llama-cli --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -p "The meaning to life and the universe is"

或者

./llama-server --hf-repo falan42/multilingual-e5-large-pooled-Q8_0-GGUF --hf-file multilingual-e5-large-pooled-q8_0.gguf -c 2048

📚 詳細文檔

該模型支持的語言列表如下：

語言代碼	語言名稱
`af`	南非荷蘭語
`am`	阿姆哈拉語
`ar`	阿拉伯語
`as`	阿薩姆語
`az`	阿塞拜疆語
`be`	白俄羅斯語
`bg`	保加利亞語
`bn`	孟加拉語
`br`	布列塔尼語
`bs`	波斯尼亞語
`ca`	加泰羅尼亞語
`cs`	捷克語
`cy`	威爾士語
`da`	丹麥語
`de`	德語
`el`	希臘語
`en`	英語
`eo`	世界語
`es`	西班牙語
`et`	愛沙尼亞語
`eu`	巴斯克語
`fa`	波斯語
`fi`	芬蘭語
`fr`	法語
`fy`	弗裡西語
`ga`	愛爾蘭語
`gd`	蘇格蘭蓋爾語
`gl`	加利西亞語
`gu`	古吉拉特語
`ha`	豪薩語
`he`	希伯來語
`hi`	印地語
`hr`	克羅地亞語
`hu`	匈牙利語
`hy`	亞美尼亞語
`id`	印尼語
`is`	冰島語
`it`	意大利語
`ja`	日語
`jv`	爪哇語
`ka`	格魯吉亞語
`kk`	哈薩克語
`km`	高棉語
`kn`	卡納達語
`ko`	韓語
`ku`	庫爾德語
`ky`	吉爾吉斯語
`la`	拉丁語
`lo`	老撾語
`lt`	立陶宛語
`lv`	拉脫維亞語
`mg`	馬爾加什語
`mk`	馬其頓語
`ml`	馬拉雅拉姆語
`mn`	蒙古語
`mr`	馬拉地語
`ms`	馬來語
`my`	緬甸語
`ne`	尼泊爾語
`nl`	荷蘭語
`no`	挪威語
`om`	奧羅莫語
`or`	奧里亞語
`pa`	旁遮普語
`pl`	波蘭語
`ps`	普什圖語
`pt`	葡萄牙語
`ro`	羅馬尼亞語
`ru`	俄語
`sa`	梵語
`sd`	信德語
`si`	僧伽羅語
`sk`	斯洛伐克語
`sl`	斯洛文尼亞語
`so`	索馬里語
`sq`	阿爾巴尼亞語
`sr`	塞爾維亞語
`su`	巽他語
`sv`	瑞典語
`sw`	斯瓦希里語
`ta`	泰米爾語
`te`	泰盧固語
`th`	泰語
`tl`	他加祿語
`tr`	土耳其語
`ug`	維吾爾語
`uk`	烏克蘭語
`ur`	烏爾都語
`uz`	烏茲別克語
`vi`	越南語
`xh`	科薩語
`yi`	意第緒語
`zh`	中文

🔧 技術細節

該模型在多個任務和數據集上進行了測試，以下是部分測試結果：

分類任務

MTEB AmazonCounterfactualClassification (en)：準確率為 79.05970149253731，平均精度為 43.486574390835635，F1 值為 73.32700092140148。
MTEB AmazonPolarityClassification：準確率為 93.489875，平均精度為 90.98758636917603，F1 值為 93.48554819717332。