jina-embeddings-v3-separation-distilled开源模型 - 低资源场景支持多语言文本嵌入计算

首页

Jina Embeddings V3 Separation Distilled

由 CISCai 开发

基于jinaai/jina-embeddings-v3的蒸馏版本，专为计算资源有限或实时性能要求高的场景设计，支持多语言文本嵌入计算。

文本嵌入

Safetensors

#静态嵌入蒸馏 #多语言文本嵌入 #高效推理

下载量 3,294

发布时间 : 11/5/2024

模型简介

这是一个基于Model2Vec库的蒸馏模型，通过LoRA任务优化，提供高效的静态文本嵌入计算，适用于多种语言。

模型特点

多语言支持

支持多种语言的文本嵌入计算，包括英语、中文、法语、德语等。

高效计算

使用静态嵌入技术，在GPU和CPU上都能快速完成计算。

易于使用

提供简单的API接口，方便用户快速加载和使用模型。

模型蒸馏

通过蒸馏技术减小模型规模，提升计算速度，同时保持较高的性能。

模型能力

文本嵌入计算

句子相似度计算

多语言支持

高效推理

使用案例

实时应用

实时文本搜索

适用于需要快速响应的文本搜索场景。

提升搜索响应速度，降低计算资源消耗。

资源受限环境

移动设备应用

适用于计算资源有限的移动设备上的文本处理应用。

在低功耗设备上实现高效的文本嵌入计算。

🚀 jina-embeddings-v3-separation-distilled模型卡片

本模型是基于 Model2Vec 库的一个模型，它是 jinaai/jina-embeddings-v3 句子转换器的蒸馏版本，并应用了 separation 任务的 LoRA。该模型使用静态嵌入，能让文本嵌入在 GPU 和 CPU 上的计算速度大幅提升。它专为计算资源有限或对实时性能要求较高的应用场景而设计。

🚀 快速开始

本模型可通过 Model2Vec 库加载使用，能快速完成文本嵌入计算。

✨ 主要特性

多语言支持：支持多种语言，包括但不限于英语、中文、法语、德语等。
高效计算：使用静态嵌入，在 GPU 和 CPU 上都能快速计算文本嵌入。
易于使用：提供简单的 API 接口，方便用户加载和使用模型。

📦 安装指南

使用 pip 安装 model2vec 库：

pip install model2vec

💻 使用示例

基础用法

使用 from_pretrained 方法加载模型并计算文本嵌入：

from model2vec import StaticModel

# 加载预训练的 Model2Vec 模型
model = StaticModel.from_pretrained("CISCai/jina-embeddings-v3-separation-distilled")

# 计算文本嵌入
embeddings = model.encode(["Example sentence"])

高级用法

将 Model2Vec 模型加载到 Sentence Transformer 模型中：

from sentence_transformers import SentenceTransformer
from sentence_transformers.models import StaticEmbedding

# 初始化 StaticEmbedding 模块
static_embedding = StaticEmbedding.from_model2vec("CISCai/jina-embeddings-v3-separation-distilled")
model = SentenceTransformer(modules=[static_embedding])
embeddings = model.encode(["Example sentence"])

模型蒸馏用法

使用 distill 方法蒸馏自己的模型：

from model2vec.distill import distill

# 选择一个 Sentence Transformer 模型
model_name = "BAAI/bge-base-en-v1.5"

# 蒸馏模型
m2v_model = distill(model_name=model_name, pca_dims=256)

# 保存模型
m2v_model.save_pretrained("m2v_model")

🔧 技术细节

Model2vec 通过以下步骤创建一个小而快且强大的模型：

将词汇表输入到句子转换器模型中。
使用 PCA 对生成的嵌入进行降维。
使用 zipf 加权对嵌入进行加权。

在推理过程中，只需取句子中所有词嵌入的平均值。该模型在所有可找到的任务中都大幅优于其他静态嵌入模型，并且比传统的静态嵌入模型（如 GloVe）创建速度快得多。最重要的是，使用 Model2Vec 蒸馏模型无需任何数据。

📚 详细文档

模型信息

属性	详情
基础模型	jinaai/jina-embeddings-v3
支持语言	多语言，包括 af、am、ar 等众多语言
库名称	model2vec
模型名称	jina-embeddings-v3-separation-distilled
许可证	cc-by-nc-4.0
标签	embeddings、static-embeddings、feature-extraction、sentence-similarity、sentence-transformers

额外资源

库作者

Model2Vec 由 Minish Lab 团队开发，团队成员包括 Stephan Tulkens 和 Thomas van Dongen。

引用

如果在您的工作中使用了此模型，请引用 Model2Vec 仓库：

@software{minishlab2024model2vec,
  authors = {Stephan Tulkens, Thomas van Dongen},
  title = {Model2Vec: Turn any Sentence Transformer into a Small Fast Model},
  year = {2024},
  url = {https://github.com/MinishLab/model2vec},
}