Jina Embeddings v4オープンソース埋め込みモデル - マルチモーダル多言語をサポート、複雑なドキュメント検索の神ツール

ホーム

Jina Embeddings V4

jinaaiによって開発

Jina Embeddings v4は、マルチモーダルおよび多言語検索用に設計された汎用埋め込みモデルで、グラフ、表、イラストを含むビジュアルに富んだ複雑なドキュメントの検索に特に適しています。

マルチモーダル融合

Transformers

その他#マルチモーダル検索 #多言語埋め込み #ビジュアルドキュメント処理

ダウンロード数 669

リリース時間 : 5/7/2025

モデル概要

Qwen/Qwen2.5 - VL - 3B - Instructをベースに構築され、テキスト、画像、ビジュアルドキュメントの統一的な埋め込みをサポートし、同時に密集型および後期相互作用型の検索をサポートします。

モデル特徴

統一的な埋め込み

テキスト、画像、ビジュアルドキュメントの統一的な埋め込みをサポートし、同時に密集型（単一ベクトル）および後期相互作用型（複数ベクトル）の検索をサポートします。

多言語サポート

30種類以上の言語をサポートし、技術的およびビジュアル的に複雑なドキュメントを含む幅広い分野と互換性があります。

特定タスクアダプター

検索、テキストマッチング、コード関連タスク用の特定タスクアダプターを提供し、推論時に選択できます。

柔軟な埋め込みサイズ

デフォルトでは、密集型埋め込みは2048次元ですが、128次元まで切り捨てることができ、性能の損失はごくわずかです。

モデル能力

マルチモーダル検索

多言語テキスト埋め込み

画像埋め込み

ビジュアルドキュメント検索

コード理解

使用事例

情報検索

多言語ドキュメント検索

ビジュアルに富んだドキュメントを含む、複数の言語のドキュメント検索をサポートします。

多言語ドキュメントの効率的な検索

ビジュアルドキュメント検索

グラフ、表、イラストを含む複雑なドキュメントを検索します。

ビジュアルコンテンツの正確なマッチング

テキストマッチング

多言語テキスト類似度計算

異なる言語のテキスト間の類似度を計算します。

高い精度の多言語マッチング

コード理解

コード検索

自然言語の説明に基づいて関連するコード断片を検索します。

効率的なコード検索

🚀 Jina Embeddings v4：マルチモーダル・マルチリンガル検索用の汎用埋め込みモデル

jina-embeddings-v4 は、マルチモーダルおよびマルチリンガル検索向けに設計された汎用埋め込みモデルです。グラフ、表、挿絵などが含まれる視覚的に豊富な複雑なドキュメントの検索に特に適しています。

🚀 クイックスタート

ブログ | 技術報告 | API

✨ 主な機能

jina-embeddings-v4 は Qwen/Qwen2.5-VL-3B-Instruct をベースに構築されており、以下の特徴を持っています。

統一埋め込み：テキスト、画像、視覚ドキュメントの統一埋め込みをサポートし、密集型（単一ベクトル）および後期相互作用（複数ベクトル）検索もサポートします。
多言語対応：30 以上の言語をサポートし、技術や視覚的に複雑なドキュメントを含む幅広い分野と互換性があります。
特定タスクアダプター：検索、テキストマッチング、コード関連タスク用の特定タスクアダプターを提供し、推論時に選択できます。
柔軟な埋め込みサイズ：デフォルトでは、密集型埋め込みは 2048 次元ですが、128 次元まで切り捨てることができ、性能の損失はごくわずかです。

機能の要約

属性	詳細
ベースモデル	Qwen2.5-VL-3B-Instruct
サポートされるタスク	`retrieval`、`text-matching`、`code`
モデルデータ型	BFloat 16
最大シーケンス長	32768
単一ベクトル次元	2048
複数ベクトル次元	128
ネスト次元	128、256、512、1024、2048
プーリング戦略	平均プーリング
アテンションメカニズム	FlashAttention2

📚 ドキュメント

訓練と評価

訓練の詳細とベンチマークについては、jina-embeddings-v4 技術報告を参照してください。

使用方法

必要条件

以下の Python パッケージが必要です。

transformers>=4.52.0
torch>=2.6.0
peft>=0.15.2
torchvision
pillow

オプション/推奨

flash-attention：推論速度と効率を向上させるために、flash-attention のインストールをおすすめしますが、必須ではありません。
sentence-transformers：sentence-transformers インターフェースを介してモデルを使用する場合は、このパッケージもインストールする必要があります。

Jina AI Embeddings API を介して使用する場合

curl https://api.jina.ai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $JINA_AI_API_TOKEN" \
  -d @- <<EOFEOF
  {
    "model": "jina-embeddings-v4",
    "task": "text-matching",
    "input": [
        {
            "text": "غروب جميل على الشاطئ"
        },
        {
            "text": "海滩上美丽的日落"
        },
        {
            "text": "A beautiful sunset over the beach"
        },
        {
            "text": "Un beau coucher de soleil sur la plage"
        },
        {
            "text": "Ein wunderschöner Sonnenuntergang am Strand"
        },
        {
            "text": "Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία"
        },
        {
            "text": "समुद्र तट पर एक खूबसूरत सूर्यास्त"
        },
        {
            "text": "Un bellissimo tramonto sulla spiaggia"
        },
        {
            "text": "浜辺に沈む美しい夕日"
        },
        {
            "text": "해변 위로 아름다운 일몰"
        },
        {
            "image": "https://i.ibb.co/nQNGqL0/beach1.jpg"
        },
        {
            "image": "https://i.ibb.co/r5w8hG8/beach2.jpg"
        }
    ]
  }
EOFEOF

transformers を介して使用する場合

# !pip install transformers>=4.52.0 torch>=2.6.0 peft>=0.15.2 torchvision pillow
# !pip install
from transformers import AutoModel
import torch

# Initialize the model
model = AutoModel.from_pretrained("jinaai/jina-embeddings-v4", trust_remote_code=True)

model.to("cuda")

# ========================
# 1. Retrieval Task
# ========================
# Configure truncate_dim, max_length (for texts), max_pixels (for images), vector_type, batch_size in the encode function if needed

# Encode query
query_embeddings = model.encode_text(
    texts=["Overview of climate change impacts on coastal cities"],
    task="retrieval",
    prompt_name="query",
)

# Encode passage (text)
passage_embeddings = model.encode_text(
    texts=[
        "Climate change has led to rising sea levels, increased frequency of extreme weather events..."
    ],
    task="retrieval",
    prompt_name="passage",
)

# Encode image/document
image_embeddings = model.encode_image(
    images=["https://i.ibb.co/nQNGqL0/beach1.jpg"],
    task="retrieval",
)

# ========================
# 2. Text Matching Task
# ========================
texts = [
    "غروب جميل على الشاطئ",  # Arabic
    "海滩上美丽的日落",  # Chinese
    "Un beau coucher de soleil sur la plage",  # French
    "Ein wunderschöner Sonnenuntergang am Strand",  # German
    "Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία",  # Greek
    "समुद्र तट पर एक खूबसूरत सूर्यास्त",  # Hindi
    "Un bellissimo tramonto sulla spiaggia",  # Italian
    "浜辺に沈む美しい夕日",  # Japanese
    "해변 위로 아름다운 일몰",  # Korean
]

text_embeddings = model.encode_text(texts=texts, task="text-matching")

# ========================
# 3. Code Understanding Task
# ========================

# Encode query
query_embedding = model.encode_text(
    texts=["Find a function that prints a greeting message to the console"],
    task="code",
    prompt_name="query",
)

# Encode code
code_embeddings = model.encode_text(
    texts=["def hello_world():\n    print('Hello, World!')"],
    task="code",
    prompt_name="passage",
)

# ========================
# 4. Use multivectors
# ========================

multivector_embeddings = model.encode_text(
    texts=texts,
    task="retrieval",
    prompt_name="query",
    return_multivector=True,
)

images = ["https://i.ibb.co/nQNGqL0/beach1.jpg", "https://i.ibb.co/r5w8hG8/beach2.jpg"]
multivector_image_embeddings = model.encode_image(
    images=images,
    task="retrieval",
    return_multivector=True,
)

sentence-transformers を介して使用する場合

from sentence_transformers import SentenceTransformer

# Initialize the model
model = SentenceTransformer("jinaai/jina-embeddings-v4", trust_remote_code=True)
# ========================
# 1. Retrieval Task
# ========================
# Encode query
query_embeddings = model.encode(
    sentences=["Overview of climate change impacts on coastal cities"],
    task="retrieval",
    prompt_name="query",
)

print(f"query_embeddings.shape = {query_embeddings.shape}")

# Encode passage (text)
passage_embeddings = model.encode(
    sentences=[
        "Climate change has led to rising sea levels, increased frequency of extreme weather events..."
    ],
    task="retrieval",
    prompt_name="passage",
)

print(f"passage_embeddings.shape = {passage_embeddings.shape}")

# Encode image/document
image_embeddings = model.encode(
    sentences=["https://i.ibb.co/nQNGqL0/beach1.jpg"],
    task="retrieval",
)

print(f"image_embeddings.shape = {image_embeddings.shape}")

# ========================
# 2. Text Matching Task
# ========================
texts = [
    "غروب جميل على الشاطئ",  # Arabic
    "海滩上美丽的日落",  # Chinese
    "Un beau coucher de soleil sur la plage",  # French
    "Ein wunderschöner Sonnenuntergang am Strand",  # German
    "Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία",  # Greek
    "समुद्र तट पर एक खूबसूरत सूर्यास्त",  # Hindi
    "Un bellissimo tramonto sulla spiaggia",  # Italian
    "浜辺に沈む美しい夕日",  # Japanese
    "해변 위로 아름다운 일몰",  # Korean
]

text_embeddings = model.encode(sentences=texts, task="text-matching")

# ========================
# 3. Code Understanding Task
# ========================

# Encode query
query_embeddings = model.encode(
    sentences=["Find a function that prints a greeting message to the console"],
    task="code",
    prompt_name="query",
)

# Encode code
code_embeddings = model.encode(
    sentences=["def hello_world():\n    print('Hello, World!')"],
    task="code",
    prompt_name="passage",
)

# ========================
# 4. Use multivectors
# ========================
# If you want to use multi-vector embeddings, please use the Hugging Face model directly.

Jina-VDR

jina-embeddings-v4 の他に、Jina VDR も公開しています。これは、視覚ドキュメント検索用の多言語、多領域ベンチマークです。タスクセットはこちらで確認でき、評価の説明はこちらで見つけることができます。

📄 ライセンス

このモデルは CC BY-NC 4.0 ライセンスに基づいてダウンロードおよび実行が可能です。Jina Embeddings API、AWS、Azure、GCP を通じて商用利用することができます。商用利用のダウンロードを希望する場合は、お問い合わせください。

📞 お問い合わせ

Discord コミュニティに参加し、他のコミュニティメンバーとアイデアを交換してください。

📚 引用

あなたの研究で jina-embeddings-v4 が役立つと思われる場合は、以下の論文を引用してください。

@misc{günther2025jinaembeddingsv4universalembeddingsmultimodal,
      title={jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval}, 
      author={Michael Günther and Saba Sturua and Mohammad Kalim Akram and Isabelle Mohr and Andrei Ungureanu and Sedigheh Eslami and Scott Martens and Bo Wang and Nan Wang and Han Xiao},
      year={2025},
      eprint={2506.18902},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2506.18902}, 
}