multilingual-e5-large-instruct-GGUF开源模型 - 支持超100种语言文本嵌入与分类任务

首页

Multilingual E5 Large Instruct GGUF

由 KeyurRamoliya 开发

多语言E5大型指令模型，支持100多种语言的文本嵌入和分类任务

大型语言模型支持多种语言开源协议:MIT #多语言嵌入 #指令微调 #文本分类

下载量 224

发布时间 : 8/23/2024

模型简介

这是一个多语言文本嵌入模型，基于E5架构，专门针对指令遵循任务进行了优化。它支持广泛的语言，适用于分类、检索和聚类等多种自然语言处理任务。

模型特点

多语言支持

支持100多种语言的文本处理，包括主流语言和许多小众语言

指令优化

专门针对指令遵循任务进行了优化，能更好地理解并执行用户指令

高性能分类

在MTEB基准测试中展现出优秀的文本分类能力，如英语分类准确率达96.29%

强大的检索能力

在ArguAna检索任务中表现出色，平均精度@10达到49.221

模型能力

文本嵌入

多语言文本处理

文本分类

信息检索

文本聚类

指令理解

使用案例

电子商务

多语言产品评论分类

对亚马逊等电商平台的多语言产品评论进行情感分类

在英语评论分类中达到96.29%准确率

反事实评论检测

识别电商平台上的反事实评论

在英语反事实分类任务中达到76.24%准确率

信息检索

论点检索

在辩论数据集中检索相关论点

在ArguAna任务中平均精度@10达到49.221

学术研究

论文聚类

在arXiv论文聚类任务中V度量达到46.40

🚀 多语言e5大指令Q8_0-GGUF模型

本项目的模型是基于intfloat/multilingual-e5-large-instruct，通过llama.cpp并借助ggml.ai的GGUF-my-repo空间转换为GGUF格式的。它能够处理多种语言的任务，为跨语言的文本处理提供了强大的支持。

🚀 快速开始

模型信息

属性	详情
模型类型	多语言e5大指令Q8_0-GGUF模型，从`intfloat/multilingual-e5-large-instruct`转换而来
训练数据	未提及具体训练数据
支持语言	多语言，包括af、am、ar等众多语言
许可证	MIT
标签	mteb、sentence-transformers、transformers、llama-cpp、gguf-my-repo

模型评估结果

该模型在多个数据集和任务上进行了评估，以下是部分任务和数据集的评估指标：

分类任务：在多个分类数据集上有不同的准确率、AP和F1值。例如在MTEB AmazonCounterfactualClassification (en)数据集上，准确率为76.23880597014924。
检索任务：在多个检索数据集上有不同的MAP、MRR、NDCG等指标。例如在MTEB ArguAna数据集上，MAP@1为31.721。
聚类任务：在多个聚类数据集上有不同的V-measure值。例如在MTEB ArxivClusteringP2P数据集上，V-measure为46.40419580759799。

使用llama.cpp

安装llama.cpp

通过brew（适用于Mac和Linux）安装llama.cpp：

brew install llama.cpp

调用llama.cpp服务器或CLI

CLI方式

llama-cli --hf-repo KeyurRamoliya/multilingual-e5-large-instruct-Q8_0-GGUF --hf-file multilingual-e5-large-instruct-q8_0.gguf -p "The meaning to life and the universe is"

服务器方式

llama-server --hf-repo KeyurRamoliya/multilingual-e5-large-instruct-Q8_0-GGUF --hf-file multilingual-e5-large-instruct-q8_0.gguf -c 2048

另一种使用步骤

步骤1：从GitHub克隆llama.cpp

git clone https://github.com/ggerganov/llama.cpp

步骤2：进入llama.cpp文件夹并编译

cd llama.cpp && LLAMA_CURL=1 make

步骤3：通过主二进制文件进行推理

./llama-cli --hf-repo KeyurRamoliya/multilingual-e5-large-instruct-Q8_0-GGUF --hf-file multilingual-e5-large-instruct-q8_0.gguf -p "The meaning to life and the universe is"

或者

./llama-server --hf-repo KeyurRamoliya/multilingual-e5-large-instruct-Q8_0-GGUF --hf-file multilingual-e5-large-instruct-q8_0.gguf -c 2048

注意事项

如需了解该模型的更多详细信息，请参考原始模型卡片。同时，你也可以直接通过Llama.cpp仓库中列出的使用步骤来使用此模型。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库