Jina Embeddings v4開源嵌入模型 - 支持多模態多語言，複雜文檔檢索神器

首頁

Jina Embeddings V4

由jinaai開發

Jina Embeddings v4 是一款專為多模態和多語言檢索設計的通用嵌入模型，特別適用於複雜文檔的檢索，包括包含圖表、表格和插圖的視覺豐富文檔。

多模態融合

Transformers

其他#多模態檢索 #多語言嵌入 #視覺文檔處理

下載量 669

發布時間 : 5/7/2025

模型概述

基於 Qwen/Qwen2.5-VL-3B-Instruct 構建，支持文本、圖像和視覺文檔的統一嵌入，同時支持密集和後期交互檢索。

模型特點

統一嵌入

支持文本、圖像和視覺文檔的統一嵌入，同時支持密集（單向量）和後期交互（多向量）檢索。

多語言支持

支持 30 多種語言，並與廣泛的領域兼容，包括技術和視覺複雜的文檔。

特定任務適配器

提供用於檢索、文本匹配和代碼相關任務的特定任務適配器，可在推理時選擇。

靈活的嵌入大小

默認情況下，密集嵌入為 2048 維，但可以截斷至低至 128 維，性能損失極小。

模型能力

多模態檢索

多語言文本嵌入

圖像嵌入

視覺文檔檢索

代碼理解

使用案例

信息檢索

跨語言文檔檢索

支持多種語言的文檔檢索，包括視覺豐富的文檔。

高效檢索多語言文檔

視覺文檔檢索

檢索包含圖表、表格和插圖的複雜文檔。

精準匹配視覺內容

文本匹配

多語言文本相似度計算

計算不同語言文本之間的相似度。

高準確度的跨語言匹配

代碼理解

代碼檢索

根據自然語言描述檢索相關代碼片段。

高效代碼搜索

🚀 Jina Embeddings v4：用於多模態多語言檢索的通用嵌入模型

jina-embeddings-v4 是一款專為多模態和多語言檢索設計的通用嵌入模型。它特別適用於複雜文檔的檢索，包括包含圖表、表格和插圖的視覺豐富文檔。

🚀 快速開始

博客 | 技術報告 | API

✨ 主要特性

jina-embeddings-v4 基於 Qwen/Qwen2.5-VL-3B-Instruct 構建，具有以下特點：

統一嵌入：支持文本、圖像和視覺文檔的統一嵌入，同時支持密集（單向量）和後期交互（多向量）檢索。
多語言支持：支持 30 多種語言，並與廣泛的領域兼容，包括技術和視覺複雜的文檔。
特定任務適配器：提供用於檢索、文本匹配和代碼相關任務的特定任務適配器，可在推理時選擇。
靈活的嵌入大小：默認情況下，密集嵌入為 2048 維，但可以截斷至低至 128 維，性能損失極小。

特性總結

屬性	詳情
基礎模型	Qwen2.5-VL-3B-Instruct
支持的任務	`retrieval`、`text-matching`、`code`
模型數據類型	BFloat 16
最大序列長度	32768
單向量維度	2048
多向量維度	128
嵌套維度	128、256、512、1024、2048
池化策略	均值池化
注意力機制	FlashAttention2

📚 詳細文檔

訓練與評估

有關訓練細節和基準測試，請參考我們的 jina-embeddings-v4 技術報告。

使用方法

要求

以下是所需的 Python 包：

transformers>=4.52.0
torch>=2.6.0
peft>=0.15.2
torchvision
pillow

可選/推薦

flash-attention：建議安裝 flash-attention 以提高推理速度和效率，但不是必需的。
sentence-transformers：如果想通過 sentence-transformers 接口使用模型，也需要安裝此包。

通過 Jina AI Embeddings API 使用

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $JINA_AI_API_TOKEN" \
  -d @- <<EOFEOF
  {
    "model": "jina-embeddings-v4",
    "task": "text-matching",
    "input": [
        {
            "text": "غروب جميل على الشاطئ"
        },
        {
            "text": "海灘上美麗的日落"
        },
        {
            "text": "A beautiful sunset over the beach"
        },
        {
            "text": "Un beau coucher de soleil sur la plage"
        },
        {
            "text": "Ein wunderschöner Sonnenuntergang am Strand"
        },
        {
            "text": "Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία"
        },
        {
            "text": "समुद्र तट पर एक खूबसूरत सूर्यास्त"
        },
        {
            "text": "Un bellissimo tramonto sulla spiaggia"
        },
        {
            "text": "浜辺に沈む美しい夕日"
        },
        {
            "text": "해변 위로 아름다운 일몰"
        },
        {
            "image": "https://i.ibb.co/nQNGqL0/beach1.jpg"
        },
        {
            "image": "https://i.ibb.co/r5w8hG8/beach2.jpg"
        }
    ]
  }
EOFEOF

通過 transformers 使用

# !pip install transformers>=4.52.0 torch>=2.6.0 peft>=0.15.2 torchvision pillow
# !pip install
from transformers import AutoModel
import torch

# Initialize the model
model = AutoModel.from_pretrained("jinaai/jina-embeddings-v4", trust_remote_code=True)

model.to("cuda")

# ========================
# 1. Retrieval Task
# ========================
# Configure truncate_dim, max_length (for texts), max_pixels (for images), vector_type, batch_size in the encode function if needed

# Encode query
query_embeddings = model.encode_text(
    texts=["Overview of climate change impacts on coastal cities"],
    task="retrieval",
    prompt_name="query",
)

# Encode passage (text)
passage_embeddings = model.encode_text(
    texts=[
        "Climate change has led to rising sea levels, increased frequency of extreme weather events..."
    ],
    task="retrieval",
    prompt_name="passage",
)

# Encode image/document
image_embeddings = model.encode_image(
    images=["https://i.ibb.co/nQNGqL0/beach1.jpg"],
    task="retrieval",
)

# ========================
# 2. Text Matching Task
# ========================
texts = [
    "غروب جميل على الشاطئ",  # Arabic
    "海灘上美麗的日落",  # Chinese
    "Un beau coucher de soleil sur la plage",  # French
    "Ein wunderschöner Sonnenuntergang am Strand",  # German
    "Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία",  # Greek
    "समुद्र तट पर एक खूबसूरत सूर्यास्त",  # Hindi
    "Un bellissimo tramonto sulla spiaggia",  # Italian
    "浜辺に沈む美しい夕日",  # Japanese
    "해변 위로 아름다운 일몰",  # Korean
]

text_embeddings = model.encode_text(texts=texts, task="text-matching")

# ========================
# 3. Code Understanding Task
# ========================

# Encode query
query_embedding = model.encode_text(
    texts=["Find a function that prints a greeting message to the console"],
    task="code",
    prompt_name="query",
)

# Encode code
code_embeddings = model.encode_text(
    texts=["def hello_world():\n    print('Hello, World!')"],
    task="code",
    prompt_name="passage",
)

# ========================
# 4. Use multivectors
# ========================

multivector_embeddings = model.encode_text(
    texts=texts,
    task="retrieval",
    prompt_name="query",
    return_multivector=True,
)

images = ["https://i.ibb.co/nQNGqL0/beach1.jpg", "https://i.ibb.co/r5w8hG8/beach2.jpg"]
multivector_image_embeddings = model.encode_image(
    images=images,
    task="retrieval",
    return_multivector=True,
)

通過 sentence-transformers 使用

from sentence_transformers import SentenceTransformer

# Initialize the model
model = SentenceTransformer("jinaai/jina-embeddings-v4", trust_remote_code=True)
# ========================
# 1. Retrieval Task
# ========================
# Encode query
query_embeddings = model.encode(
    sentences=["Overview of climate change impacts on coastal cities"],
    task="retrieval",
    prompt_name="query",
)

print(f"query_embeddings.shape = {query_embeddings.shape}")

# Encode passage (text)
passage_embeddings = model.encode(
    sentences=[
        "Climate change has led to rising sea levels, increased frequency of extreme weather events..."
    ],
    task="retrieval",
    prompt_name="passage",
)

print(f"passage_embeddings.shape = {passage_embeddings.shape}")

# Encode image/document
image_embeddings = model.encode(
    sentences=["https://i.ibb.co/nQNGqL0/beach1.jpg"],
    task="retrieval",
)

print(f"image_embeddings.shape = {image_embeddings.shape}")

# ========================
# 2. Text Matching Task
# ========================
texts = [
    "غروب جميل على الشاطئ",  # Arabic
    "海灘上美麗的日落",  # Chinese
    "Un beau coucher de soleil sur la plage",  # French
    "Ein wunderschöner Sonnenuntergang am Strand",  # German
    "Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία",  # Greek
    "समुद्र तट पर एक खूबसूरत सूर्यास्त",  # Hindi
    "Un bellissimo tramonto sulla spiaggia",  # Italian
    "浜辺に沈む美しい夕日",  # Japanese
    "해변 위로 아름다운 일몰",  # Korean
]

text_embeddings = model.encode(sentences=texts, task="text-matching")

# ========================
# 3. Code Understanding Task
# ========================

# Encode query
query_embeddings = model.encode(
    sentences=["Find a function that prints a greeting message to the console"],
    task="code",
    prompt_name="query",
)

# Encode code
code_embeddings = model.encode(
    sentences=["def hello_world():\n    print('Hello, World!')"],
    task="code",
    prompt_name="passage",
)

# ========================
# 4. Use multivectors
# ========================
# If you want to use multi-vector embeddings, please use the Hugging Face model directly.

Jina-VDR

除了 jina-embeddings-v4，我們還發布了 Jina VDR，這是一個用於視覺文檔檢索的多語言、多領域基準測試。任務集合可以在這裡查看，評估說明可以在這裡找到。

📄 許可證

該模型根據 CC BY-NC 4.0 許可進行下載和運行。可以通過 Jina Embeddings API、AWS、Azure 和 GCP 進行商業使用。如需商業使用下載，請聯繫我們。

📞 聯繫我們

加入我們的 Discord 社區，與其他社區成員交流想法。

📚 引用

如果您在研究中發現 jina-embeddings-v4 很有用，請引用以下論文：

@misc{günther2025jinaembeddingsv4universalembeddingsmultimodal,
      title={jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval}, 
      author={Michael Günther and Saba Sturua and Mohammad Kalim Akram and Isabelle Mohr and Andrei Ungureanu and Sedigheh Eslami and Scott Martens and Bo Wang and Nan Wang and Han Xiao},
      year={2025},
      eprint={2506.18902},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2506.18902}, 
}