Jina Embeddings V4
Jina Embeddings v4は、マルチモーダルおよび多言語検索用に設計された汎用埋め込みモデルで、グラフ、表、イラストを含むビジュアルに富んだ複雑なドキュメントの検索に特に適しています。
ダウンロード数 669
リリース時間 : 5/7/2025
モデル概要
Qwen/Qwen2.5 - VL - 3B - Instructをベースに構築され、テキスト、画像、ビジュアルドキュメントの統一的な埋め込みをサポートし、同時に密集型および後期相互作用型の検索をサポートします。
モデル特徴
統一的な埋め込み
テキスト、画像、ビジュアルドキュメントの統一的な埋め込みをサポートし、同時に密集型(単一ベクトル)および後期相互作用型(複数ベクトル)の検索をサポートします。
多言語サポート
30種類以上の言語をサポートし、技術的およびビジュアル的に複雑なドキュメントを含む幅広い分野と互換性があります。
特定タスクアダプター
検索、テキストマッチング、コード関連タスク用の特定タスクアダプターを提供し、推論時に選択できます。
柔軟な埋め込みサイズ
デフォルトでは、密集型埋め込みは2048次元ですが、128次元まで切り捨てることができ、性能の損失はごくわずかです。
モデル能力
マルチモーダル検索
多言語テキスト埋め込み
画像埋め込み
ビジュアルドキュメント検索
コード理解
使用事例
情報検索
多言語ドキュメント検索
ビジュアルに富んだドキュメントを含む、複数の言語のドキュメント検索をサポートします。
多言語ドキュメントの効率的な検索
ビジュアルドキュメント検索
グラフ、表、イラストを含む複雑なドキュメントを検索します。
ビジュアルコンテンツの正確なマッチング
テキストマッチング
多言語テキスト類似度計算
異なる言語のテキスト間の類似度を計算します。
高い精度の多言語マッチング
コード理解
コード検索
自然言語の説明に基づいて関連するコード断片を検索します。
効率的なコード検索
🚀 Jina Embeddings v4:マルチモーダル・マルチリンガル検索用の汎用埋め込みモデル
jina-embeddings-v4
は、マルチモーダルおよびマルチリンガル検索向けに設計された汎用埋め込みモデルです。グラフ、表、挿絵などが含まれる視覚的に豊富な複雑なドキュメントの検索に特に適しています。
🚀 クイックスタート
✨ 主な機能
jina-embeddings-v4
は Qwen/Qwen2.5-VL-3B-Instruct をベースに構築されており、以下の特徴を持っています。
- 統一埋め込み:テキスト、画像、視覚ドキュメントの統一埋め込みをサポートし、密集型(単一ベクトル)および後期相互作用(複数ベクトル)検索もサポートします。
- 多言語対応:30 以上の言語をサポートし、技術や視覚的に複雑なドキュメントを含む幅広い分野と互換性があります。
- 特定タスクアダプター:検索、テキストマッチング、コード関連タスク用の特定タスクアダプターを提供し、推論時に選択できます。
- 柔軟な埋め込みサイズ:デフォルトでは、密集型埋め込みは 2048 次元ですが、128 次元まで切り捨てることができ、性能の損失はごくわずかです。
機能の要約
属性 | 詳細 |
---|---|
ベースモデル | Qwen2.5-VL-3B-Instruct |
サポートされるタスク | retrieval 、text-matching 、code |
モデルデータ型 | BFloat 16 |
最大シーケンス長 | 32768 |
単一ベクトル次元 | 2048 |
複数ベクトル次元 | 128 |
ネスト次元 | 128、256、512、1024、2048 |
プーリング戦略 | 平均プーリング |
アテンションメカニズム | FlashAttention2 |
📚 ドキュメント
訓練と評価
訓練の詳細とベンチマークについては、jina-embeddings-v4 技術報告 を参照してください。
使用方法
必要条件
以下の Python パッケージが必要です。
transformers>=4.52.0
torch>=2.6.0
peft>=0.15.2
torchvision
pillow
オプション/推奨
- flash-attention:推論速度と効率を向上させるために、flash-attention のインストールをおすすめしますが、必須ではありません。
- sentence-transformers:
sentence-transformers
インターフェースを介してモデルを使用する場合は、このパッケージもインストールする必要があります。
Jina AI Embeddings API を介して使用する場合
curl https://api.jina.ai/v1/embeddings \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $JINA_AI_API_TOKEN" \
-d @- <<EOFEOF
{
"model": "jina-embeddings-v4",
"task": "text-matching",
"input": [
{
"text": "غروب جميل على الشاطئ"
},
{
"text": "海滩上美丽的日落"
},
{
"text": "A beautiful sunset over the beach"
},
{
"text": "Un beau coucher de soleil sur la plage"
},
{
"text": "Ein wunderschöner Sonnenuntergang am Strand"
},
{
"text": "Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία"
},
{
"text": "समुद्र तट पर एक खूबसूरत सूर्यास्त"
},
{
"text": "Un bellissimo tramonto sulla spiaggia"
},
{
"text": "浜辺に沈む美しい夕日"
},
{
"text": "해변 위로 아름다운 일몰"
},
{
"image": "https://i.ibb.co/nQNGqL0/beach1.jpg"
},
{
"image": "https://i.ibb.co/r5w8hG8/beach2.jpg"
}
]
}
EOFEOF
transformers を介して使用する場合
# !pip install transformers>=4.52.0 torch>=2.6.0 peft>=0.15.2 torchvision pillow
# !pip install
from transformers import AutoModel
import torch
# Initialize the model
model = AutoModel.from_pretrained("jinaai/jina-embeddings-v4", trust_remote_code=True)
model.to("cuda")
# ========================
# 1. Retrieval Task
# ========================
# Configure truncate_dim, max_length (for texts), max_pixels (for images), vector_type, batch_size in the encode function if needed
# Encode query
query_embeddings = model.encode_text(
texts=["Overview of climate change impacts on coastal cities"],
task="retrieval",
prompt_name="query",
)
# Encode passage (text)
passage_embeddings = model.encode_text(
texts=[
"Climate change has led to rising sea levels, increased frequency of extreme weather events..."
],
task="retrieval",
prompt_name="passage",
)
# Encode image/document
image_embeddings = model.encode_image(
images=["https://i.ibb.co/nQNGqL0/beach1.jpg"],
task="retrieval",
)
# ========================
# 2. Text Matching Task
# ========================
texts = [
"غروب جميل على الشاطئ", # Arabic
"海滩上美丽的日落", # Chinese
"Un beau coucher de soleil sur la plage", # French
"Ein wunderschöner Sonnenuntergang am Strand", # German
"Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία", # Greek
"समुद्र तट पर एक खूबसूरत सूर्यास्त", # Hindi
"Un bellissimo tramonto sulla spiaggia", # Italian
"浜辺に沈む美しい夕日", # Japanese
"해변 위로 아름다운 일몰", # Korean
]
text_embeddings = model.encode_text(texts=texts, task="text-matching")
# ========================
# 3. Code Understanding Task
# ========================
# Encode query
query_embedding = model.encode_text(
texts=["Find a function that prints a greeting message to the console"],
task="code",
prompt_name="query",
)
# Encode code
code_embeddings = model.encode_text(
texts=["def hello_world():\n print('Hello, World!')"],
task="code",
prompt_name="passage",
)
# ========================
# 4. Use multivectors
# ========================
multivector_embeddings = model.encode_text(
texts=texts,
task="retrieval",
prompt_name="query",
return_multivector=True,
)
images = ["https://i.ibb.co/nQNGqL0/beach1.jpg", "https://i.ibb.co/r5w8hG8/beach2.jpg"]
multivector_image_embeddings = model.encode_image(
images=images,
task="retrieval",
return_multivector=True,
)
sentence-transformers を介して使用する場合
from sentence_transformers import SentenceTransformer
# Initialize the model
model = SentenceTransformer("jinaai/jina-embeddings-v4", trust_remote_code=True)
# ========================
# 1. Retrieval Task
# ========================
# Encode query
query_embeddings = model.encode(
sentences=["Overview of climate change impacts on coastal cities"],
task="retrieval",
prompt_name="query",
)
print(f"query_embeddings.shape = {query_embeddings.shape}")
# Encode passage (text)
passage_embeddings = model.encode(
sentences=[
"Climate change has led to rising sea levels, increased frequency of extreme weather events..."
],
task="retrieval",
prompt_name="passage",
)
print(f"passage_embeddings.shape = {passage_embeddings.shape}")
# Encode image/document
image_embeddings = model.encode(
sentences=["https://i.ibb.co/nQNGqL0/beach1.jpg"],
task="retrieval",
)
print(f"image_embeddings.shape = {image_embeddings.shape}")
# ========================
# 2. Text Matching Task
# ========================
texts = [
"غروب جميل على الشاطئ", # Arabic
"海滩上美丽的日落", # Chinese
"Un beau coucher de soleil sur la plage", # French
"Ein wunderschöner Sonnenuntergang am Strand", # German
"Ένα όμορφο ηλιοβασίλεμα πάνω από την παραλία", # Greek
"समुद्र तट पर एक खूबसूरत सूर्यास्त", # Hindi
"Un bellissimo tramonto sulla spiaggia", # Italian
"浜辺に沈む美しい夕日", # Japanese
"해변 위로 아름다운 일몰", # Korean
]
text_embeddings = model.encode(sentences=texts, task="text-matching")
# ========================
# 3. Code Understanding Task
# ========================
# Encode query
query_embeddings = model.encode(
sentences=["Find a function that prints a greeting message to the console"],
task="code",
prompt_name="query",
)
# Encode code
code_embeddings = model.encode(
sentences=["def hello_world():\n print('Hello, World!')"],
task="code",
prompt_name="passage",
)
# ========================
# 4. Use multivectors
# ========================
# If you want to use multi-vector embeddings, please use the Hugging Face model directly.
Jina-VDR
jina-embeddings-v4
の他に、Jina VDR も公開しています。これは、視覚ドキュメント検索用の多言語、多領域ベンチマークです。タスクセットは こちら で確認でき、評価の説明は こちら で見つけることができます。
📄 ライセンス
このモデルは CC BY-NC 4.0 ライセンスに基づいてダウンロードおよび実行が可能です。Jina Embeddings API、AWS、Azure、GCP を通じて商用利用することができます。商用利用のダウンロードを希望する場合は、お問い合わせ ください。
📞 お問い合わせ
Discord コミュニティ に参加し、他のコミュニティメンバーとアイデアを交換してください。
📚 引用
あなたの研究で jina-embeddings-v4
が役立つと思われる場合は、以下の論文を引用してください。
@misc{günther2025jinaembeddingsv4universalembeddingsmultimodal,
title={jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval},
author={Michael Günther and Saba Sturua and Mohammad Kalim Akram and Isabelle Mohr and Andrei Ungureanu and Sedigheh Eslami and Scott Martens and Bo Wang and Nan Wang and Han Xiao},
year={2025},
eprint={2506.18902},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2506.18902},
}
Codebert Base
CodeBERTはプログラミング言語と自然言語向けの事前学習モデルで、RoBERTaアーキテクチャに基づいており、コード検索やコードからドキュメント生成などの機能をサポートします。
マルチモーダル融合
C
microsoft
1.6M
248
Llama 4 Scout 17B 16E Instruct
その他
Llama 4 ScoutはMetaが開発したマルチモーダルAIモデルで、混合専門家アーキテクチャを採用し、12言語のテキストと画像インタラクションをサポート、17Bの活性化パラメータと109Bの総パラメータを有します。
マルチモーダル融合
Transformers 複数言語対応

L
meta-llama
817.62k
844
Unixcoder Base
Apache-2.0
UniXcoderは統一されたマルチモーダル事前学習モデルで、コードコメントや抽象構文木などのマルチモーダルデータを使用してコード表現を事前学習します。
マルチモーダル融合
Transformers 英語

U
microsoft
347.45k
51
TITAN
TITANは、病理学画像分析のための視覚的自己教師あり学習と視覚-言語アライメントによるマルチモーダル全スライド基礎モデルです。
マルチモーダル融合
Safetensors 英語
T
MahmoodLab
213.39k
37
Qwen2.5 Omni 7B
その他
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティを認識し、ストリーミング方式でテキストや自然な音声レスポンスを生成できます。
マルチモーダル融合
Transformers 英語

Q
Qwen
206.20k
1,522
Minicpm O 2 6
MiniCPM-o 2.6はスマートフォンで動作するGPT-4oレベルのマルチモーダル大規模モデルで、視覚、音声、ライブストリーム処理をサポート
マルチモーダル融合
Transformers その他

M
openbmb
178.38k
1,117
Llama 4 Scout 17B 16E Instruct
その他
Llama 4 ScoutはMetaが開発した17Bパラメータ/16エキスパート混合のマルチモーダルAIモデルで、12言語と画像理解をサポートし、業界をリードする性能を有しています。
マルチモーダル融合
Transformers 複数言語対応

L
chutesai
173.52k
2
Qwen2.5 Omni 3B
その他
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティ情報を認識し、ストリーミング方式でテキストと自然な音声応答を同期生成できます。
マルチモーダル融合
Transformers 英語

Q
Qwen
48.07k
219
One Align
MIT
Q-Alignはマルチタスク視覚評価モデルで、画像品質評価(IQA)、美的評価(IAA)、動画品質評価(VQA)に特化しており、ICML2024で発表されました。
マルチモーダル融合
Transformers

O
q-future
39.48k
25
Biomedvlp BioViL T
MIT
BioViL-Tは胸部X線画像と放射線レポートの分析に特化した視覚言語モデルで、時系列マルチモーダル事前学習により性能を向上させています。
マルチモーダル融合
Transformers 英語

B
microsoft
26.39k
35
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98