jina-embeddings-v3-separation-distilled開源模型 - 低資源場景支持多語言文本嵌入計算

首頁

Jina Embeddings V3 Separation Distilled

由CISCai開發

基於jinaai/jina-embeddings-v3的蒸餾版本，專為計算資源有限或即時性能要求高的場景設計，支持多語言文本嵌入計算。

文本嵌入

Safetensors

#靜態嵌入蒸餾 #多語言文本嵌入 #高效推理

下載量 3,294

發布時間 : 11/5/2024

模型概述

這是一個基於Model2Vec庫的蒸餾模型，通過LoRA任務優化，提供高效的靜態文本嵌入計算，適用於多種語言。

模型特點

多語言支持

支持多種語言的文本嵌入計算，包括英語、中文、法語、德語等。

高效計算

使用靜態嵌入技術，在GPU和CPU上都能快速完成計算。

易於使用

提供簡單的API接口，方便用戶快速加載和使用模型。

模型蒸餾

通過蒸餾技術減小模型規模，提升計算速度，同時保持較高的性能。

模型能力

文本嵌入計算

句子相似度計算

多語言支持

高效推理

使用案例

即時應用

即時文本搜索

適用於需要快速響應的文本搜索場景。

提升搜索響應速度，降低計算資源消耗。

資源受限環境

移動設備應用

適用於計算資源有限的移動設備上的文本處理應用。

在低功耗設備上實現高效的文本嵌入計算。

🚀 jina-embeddings-v3-separation-distilled模型卡片

本模型是基於 Model2Vec 庫的一個模型，它是 jinaai/jina-embeddings-v3 句子轉換器的蒸餾版本，並應用了 separation 任務的 LoRA。該模型使用靜態嵌入，能讓文本嵌入在 GPU 和 CPU 上的計算速度大幅提升。它專為計算資源有限或對即時性能要求較高的應用場景而設計。

🚀 快速開始

本模型可通過 Model2Vec 庫加載使用，能快速完成文本嵌入計算。

✨ 主要特性

多語言支持：支持多種語言，包括但不限於英語、中文、法語、德語等。
高效計算：使用靜態嵌入，在 GPU 和 CPU 上都能快速計算文本嵌入。
易於使用：提供簡單的 API 接口，方便用戶加載和使用模型。

📦 安裝指南

使用 pip 安裝 model2vec 庫：

pip install model2vec

💻 使用示例

基礎用法

使用 from_pretrained 方法加載模型並計算文本嵌入：

from model2vec import StaticModel

# 加載預訓練的 Model2Vec 模型
model = StaticModel.from_pretrained("CISCai/jina-embeddings-v3-separation-distilled")

# 計算文本嵌入
embeddings = model.encode(["Example sentence"])

高級用法

將 Model2Vec 模型加載到 Sentence Transformer 模型中：

from sentence_transformers import SentenceTransformer
from sentence_transformers.models import StaticEmbedding

# 初始化 StaticEmbedding 模塊
static_embedding = StaticEmbedding.from_model2vec("CISCai/jina-embeddings-v3-separation-distilled")
model = SentenceTransformer(modules=[static_embedding])
embeddings = model.encode(["Example sentence"])

模型蒸餾用法

使用 distill 方法蒸餾自己的模型：

from model2vec.distill import distill

# 選擇一個 Sentence Transformer 模型
model_name = "BAAI/bge-base-en-v1.5"

# 蒸餾模型
m2v_model = distill(model_name=model_name, pca_dims=256)

# 保存模型
m2v_model.save_pretrained("m2v_model")

🔧 技術細節

Model2vec 通過以下步驟創建一個小而快且強大的模型：

將詞彙表輸入到句子轉換器模型中。
使用 PCA 對生成的嵌入進行降維。
使用 zipf 加權對嵌入進行加權。

在推理過程中，只需取句子中所有詞嵌入的平均值。該模型在所有可找到的任務中都大幅優於其他靜態嵌入模型，並且比傳統的靜態嵌入模型（如 GloVe）創建速度快得多。最重要的是，使用 Model2Vec 蒸餾模型無需任何數據。

📚 詳細文檔

模型信息

屬性	詳情
基礎模型	jinaai/jina-embeddings-v3
支持語言	多語言，包括 af、am、ar 等眾多語言
庫名稱	model2vec
模型名稱	jina-embeddings-v3-separation-distilled
許可證	cc-by-nc-4.0
標籤	embeddings、static-embeddings、feature-extraction、sentence-similarity、sentence-transformers

額外資源

庫作者

Model2Vec 由 Minish Lab 團隊開發，團隊成員包括 Stephan Tulkens 和 Thomas van Dongen。

引用

如果在您的工作中使用了此模型，請引用 Model2Vec 倉庫：

@software{minishlab2024model2vec,
  authors = {Stephan Tulkens, Thomas van Dongen},
  title = {Model2Vec: Turn any Sentence Transformer into a Small Fast Model},
  year = {2024},
  url = {https://github.com/MinishLab/model2vec},
}