Jina Embeddings v4开源嵌入模型 - 支持多模态多语言，复杂文档检索神器

首页

Jina Embeddings V4

由 jinaai 开发

Jina Embeddings v4 是一款专为多模态和多语言检索设计的通用嵌入模型，特别适用于复杂文档的检索，包括包含图表、表格和插图的视觉丰富文档。

多模态融合

Transformers

其他#多模态检索 #多语言嵌入 #视觉文档处理

下载量 669

发布时间 : 5/7/2025

模型简介

基于 Qwen/Qwen2.5-VL-3B-Instruct 构建，支持文本、图像和视觉文档的统一嵌入，同时支持密集和后期交互检索。

模型特点

统一嵌入

支持文本、图像和视觉文档的统一嵌入，同时支持密集（单向量）和后期交互（多向量）检索。

多语言支持

支持 30 多种语言，并与广泛的领域兼容，包括技术和视觉复杂的文档。

特定任务适配器

提供用于检索、文本匹配和代码相关任务的特定任务适配器，可在推理时选择。

灵活的嵌入大小

默认情况下，密集嵌入为 2048 维，但可以截断至低至 128 维，性能损失极小。

模型能力

多模态检索

多语言文本嵌入

图像嵌入

视觉文档检索

代码理解

使用案例

信息检索

跨语言文档检索

支持多种语言的文档检索，包括视觉丰富的文档。

高效检索多语言文档

视觉文档检索

检索包含图表、表格和插图的复杂文档。

精准匹配视觉内容

文本匹配

多语言文本相似度计算

计算不同语言文本之间的相似度。

高准确度的跨语言匹配

代码理解

代码检索

根据自然语言描述检索相关代码片段。

高效代码搜索

🚀 Jina Embeddings v4：用于多模态多语言检索的通用嵌入模型

jina-embeddings-v4 是一款专为多模态和多语言检索设计的通用嵌入模型。它特别适用于复杂文档的检索，包括包含图表、表格和插图的视觉丰富文档。

🚀 快速开始

博客 | 技术报告 | API

✨ 主要特性

jina-embeddings-v4 基于 Qwen/Qwen2.5-VL-3B-Instruct 构建，具有以下特点：

统一嵌入：支持文本、图像和视觉文档的统一嵌入，同时支持密集（单向量）和后期交互（多向量）检索。
多语言支持：支持 30 多种语言，并与广泛的领域兼容，包括技术和视觉复杂的文档。
特定任务适配器：提供用于检索、文本匹配和代码相关任务的特定任务适配器，可在推理时选择。
灵活的嵌入大小：默认情况下，密集嵌入为 2048 维，但可以截断至低至 128 维，性能损失极小。

特性总结

属性	详情
基础模型	Qwen2.5-VL-3B-Instruct
支持的任务	`retrieval`、`text-matching`、`code`
模型数据类型	BFloat 16
最大序列长度	32768
单向量维度	2048
多向量维度	128
嵌套维度	128、256、512、1024、2048
池化策略	均值池化
注意力机制	FlashAttention2

📚 详细文档

训练与评估

有关训练细节和基准测试，请参考我们的 jina-embeddings-v4 技术报告。

使用方法

要求

以下是所需的 Python 包：

transformers>=4.52.0
torch>=2.6.0
peft>=0.15.2
torchvision
pillow

可选/推荐

flash-attention：建议安装 flash-attention 以提高推理速度和效率，但不是必需的。
sentence-transformers：如果想通过 sentence-transformers 接口使用模型，也需要安装此包。

通过 Jina AI Embeddings API 使用

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $JINA_AI_API_TOKEN" \
  -d @- <<EOFEOF
  {
    "model": "jina-embeddings-v4",
    "task": "text-matching",
    "input": [
        {
            "text": "غروب جميل على الشاطئ"
        },
        {
            "text": "海滩上美丽的日落"
        },
        {
            "text": "A beautiful sunset over the beach"
        },
        {
            "text": "Un beau coucher de soleil sur la plage"
        },
        {
            "text": "Ein wunderschöner Sonnenuntergang am Strand"
        },
        {
            "text": "Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία"
        },
        {
            "text": "समुद्र तट पर एक खूबसूरत सूर्यास्त"
        },
        {
            "text": "Un bellissimo tramonto sulla spiaggia"
        },
        {
            "text": "浜辺に沈む美しい夕日"
        },
        {
            "text": "해변 위로 아름다운 일몰"
        },
        {
            "image": "https://i.ibb.co/nQNGqL0/beach1.jpg"
        },
        {
            "image": "https://i.ibb.co/r5w8hG8/beach2.jpg"
        }
    ]
  }
EOFEOF

通过 transformers 使用

# !pip install transformers>=4.52.0 torch>=2.6.0 peft>=0.15.2 torchvision pillow
# !pip install
from transformers import AutoModel
import torch

# Initialize the model
model = AutoModel.from_pretrained("jinaai/jina-embeddings-v4", trust_remote_code=True)

model.to("cuda")

# ========================
# 1. Retrieval Task
# ========================
# Configure truncate_dim, max_length (for texts), max_pixels (for images), vector_type, batch_size in the encode function if needed

# Encode query
query_embeddings = model.encode_text(
    texts=["Overview of climate change impacts on coastal cities"],
    task="retrieval",
    prompt_name="query",
)

# Encode passage (text)
passage_embeddings = model.encode_text(
    texts=[
        "Climate change has led to rising sea levels, increased frequency of extreme weather events..."
    ],
    task="retrieval",
    prompt_name="passage",
)

# Encode image/document
image_embeddings = model.encode_image(
    images=["https://i.ibb.co/nQNGqL0/beach1.jpg"],
    task="retrieval",
)

# ========================
# 2. Text Matching Task
# ========================
texts = [
    "غروب جميل على الشاطئ",  # Arabic
    "海滩上美丽的日落",  # Chinese
    "Un beau coucher de soleil sur la plage",  # French
    "Ein wunderschöner Sonnenuntergang am Strand",  # German
    "Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία",  # Greek
    "समुद्र तट पर एक खूबसूरत सूर्यास्त",  # Hindi
    "Un bellissimo tramonto sulla spiaggia",  # Italian
    "浜辺に沈む美しい夕日",  # Japanese
    "해변 위로 아름다운 일몰",  # Korean
]

text_embeddings = model.encode_text(texts=texts, task="text-matching")

# ========================
# 3. Code Understanding Task
# ========================

# Encode query
query_embedding = model.encode_text(
    texts=["Find a function that prints a greeting message to the console"],
    task="code",
    prompt_name="query",
)

# Encode code
code_embeddings = model.encode_text(
    texts=["def hello_world():\n    print('Hello, World!')"],
    task="code",
    prompt_name="passage",
)

# ========================
# 4. Use multivectors
# ========================

multivector_embeddings = model.encode_text(
    texts=texts,
    task="retrieval",
    prompt_name="query",
    return_multivector=True,
)

images = ["https://i.ibb.co/nQNGqL0/beach1.jpg", "https://i.ibb.co/r5w8hG8/beach2.jpg"]
multivector_image_embeddings = model.encode_image(
    images=images,
    task="retrieval",
    return_multivector=True,
)

通过 sentence-transformers 使用

from sentence_transformers import SentenceTransformer

# Initialize the model
model = SentenceTransformer("jinaai/jina-embeddings-v4", trust_remote_code=True)
# ========================
# 1. Retrieval Task
# ========================
# Encode query
query_embeddings = model.encode(
    sentences=["Overview of climate change impacts on coastal cities"],
    task="retrieval",
    prompt_name="query",
)

print(f"query_embeddings.shape = {query_embeddings.shape}")

# Encode passage (text)
passage_embeddings = model.encode(
    sentences=[
        "Climate change has led to rising sea levels, increased frequency of extreme weather events..."
    ],
    task="retrieval",
    prompt_name="passage",
)

print(f"passage_embeddings.shape = {passage_embeddings.shape}")

# Encode image/document
image_embeddings = model.encode(
    sentences=["https://i.ibb.co/nQNGqL0/beach1.jpg"],
    task="retrieval",
)

print(f"image_embeddings.shape = {image_embeddings.shape}")

# ========================
# 2. Text Matching Task
# ========================
texts = [
    "غروب جميل على الشاطئ",  # Arabic
    "海滩上美丽的日落",  # Chinese
    "Un beau coucher de soleil sur la plage",  # French
    "Ein wunderschöner Sonnenuntergang am Strand",  # German
    "Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία",  # Greek
    "समुद्र तट पर एक खूबसूरत सूर्यास्त",  # Hindi
    "Un bellissimo tramonto sulla spiaggia",  # Italian
    "浜辺に沈む美しい夕日",  # Japanese
    "해변 위로 아름다운 일몰",  # Korean
]

text_embeddings = model.encode(sentences=texts, task="text-matching")

# ========================
# 3. Code Understanding Task
# ========================

# Encode query
query_embeddings = model.encode(
    sentences=["Find a function that prints a greeting message to the console"],
    task="code",
    prompt_name="query",
)

# Encode code
code_embeddings = model.encode(
    sentences=["def hello_world():\n    print('Hello, World!')"],
    task="code",
    prompt_name="passage",
)

# ========================
# 4. Use multivectors
# ========================
# If you want to use multi-vector embeddings, please use the Hugging Face model directly.

Jina-VDR

除了 jina-embeddings-v4，我们还发布了 Jina VDR，这是一个用于视觉文档检索的多语言、多领域基准测试。任务集合可以在这里查看，评估说明可以在这里找到。

📄 许可证

该模型根据 CC BY-NC 4.0 许可进行下载和运行。可以通过 Jina Embeddings API、AWS、Azure 和 GCP 进行商业使用。如需商业使用下载，请联系我们。

📞 联系我们

加入我们的 Discord 社区，与其他社区成员交流想法。

📚 引用

如果您在研究中发现 jina-embeddings-v4 很有用，请引用以下论文：

@misc{günther2025jinaembeddingsv4universalembeddingsmultimodal,
      title={jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval}, 
      author={Michael Günther and Saba Sturua and Mohammad Kalim Akram and Isabelle Mohr and Andrei Ungureanu and Sedigheh Eslami and Scott Martens and Bo Wang and Nan Wang and Han Xiao},
      year={2025},
      eprint={2506.18902},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2506.18902}, 
}