Qwen3-Embedding-8B-GGUFオープンソースモデル - 多言語長文理解をサポートするテキスト埋め込みソートの利器

Home

Qwen3 Embedding 8B GGUF

Developed by Mungert

Qwen3-Embedding-8BはQwenファミリーの最新の専用モデルで、テキスト埋め込みとソートタスク用に設計されており、Qwen3シリーズの密集型基礎モデルに基づいて構築され、卓越した多言語能力と長文理解能力を持っています。

テキスト埋め込み Open Source License:Apache-2.0 #多言語埋め込み #長文理解 #指令最適化検索

Downloads 612

Release Time : 6/10/2025

Model Overview

Qwen3-Embedding-8Bは高性能のテキスト埋め込みモデルで、テキスト検索、コード検索、テキスト分類、テキストクラスタリング、バイリンガルマイニングなどの様々なタスクに適しています。

Model Features

卓越した汎用性

埋め込みモデルは幅広い下流アプリケーション評価で最先端の性能を達成し、8Bサイズの埋め込みモデルはMTEB多言語ランキングで1位を占めています。

全面的な柔軟性

Qwen3埋め込みシリーズは、埋め込みと再ソートモデルに対して全範囲のサイズ（0.6Bから8B）を提供し、効率と効果を重視する様々なユースケースを満たします。

多言語能力

100種類以上の言語をサポートし、様々なプログラミング言語も含まれ、強力な多言語、クロス言語、コード検索能力を提供します。

Model Capabilities

テキスト検索

コード検索

テキスト分類

テキストクラスタリング

バイリンガルマイニング

Use Cases

情報検索

ウェブ検索

ウェブ検索クエリを与えられた場合、クエリに回答するための関連段落を検索します。

複数のテキスト検索タスクで優れた性能を発揮します

自然言語処理

テキスト分類

テキストを分類します。例えば、感情分析、トピック分類などです。

複数のテキスト分類タスクで著しい進歩を遂げました

🚀 Qwen/Qwen3-Embedding-8B GGUFモデル

Qwen/Qwen3-Embedding-8B GGUFモデルは、テキスト埋め込みとランキングタスクに特化したモデルです。Transformerアーキテクチャをベースに構築され、多言語対応や高い精度での埋め込み生成が可能です。

🚀 クイックスタート

このモデルを使用する前に、必要なライブラリをインストールする必要があります。詳細なインストール手順や使用方法は以下のセクションを参照してください。

✨ 主な機能

多言語対応：100以上の言語をサポートし、多言語やクロスリンガル、コード検索に強力な機能を提供します。
高い汎用性：下流の様々なアプリケーション評価で最先端の性能を達成しています。
柔軟性：埋め込みモデルは全次元で柔軟なベクトル定義が可能で、埋め込みと再ランキングモデルはユーザー定義の命令をサポートします。

📦 インストール

このモデルを使用するには、transformers と sentence-transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers>=4.51.0 sentence-transformers>=2.7.0

💻 使用例

基本的な使用法

# Requires transformers>=4.51.0
# Requires sentence-transformers>=2.7.0

from sentence_transformers import SentenceTransformer

# Load the model
model = SentenceTransformer("Qwen/Qwen3-Embedding-8B")

# We recommend enabling flash_attention_2 for better acceleration and memory saving,
# together with setting `padding_side` to "left":
# model = SentenceTransformer(
#     "Qwen/Qwen3-Embedding-8B",
#     model_kwargs={"attn_implementation": "flash_attention_2", "device_map": "auto"},
#     tokenizer_kwargs={"padding_side": "left"},
# )

# The queries and documents to embed
queries = [
    "What is the capital of China?",
    "Explain gravity",
]
documents = [
    "The capital of China is Beijing.",
    "Gravity is a force that attracts two bodies towards each other. It gives weight to physical objects and is responsible for the movement of planets around the sun.",
]

# Encode the queries and documents. Note that queries benefit from using a prompt
# Here we use the prompt called "query" stored under `model.prompts`, but you can
# also pass your own prompt via the `prompt` argument
query_embeddings = model.encode(queries, prompt_name="query")
document_embeddings = model.encode(documents)

# Compute the (cosine) similarity between the query and document embeddings
similarity = model.similarity(query_embeddings, document_embeddings)
print(similarity)
# tensor([[0.7493, 0.0751],
#         [0.0880, 0.6318]])

高度な使用法

# Requires vllm>=0.8.5
import torch
import vllm
from vllm import LLM
def get_detailed_instruct(task_description: str, query: str) -> str:
    return f'Instruct: {task_description}\nQuery:{query}'
# Each query must come with a one-sentence instruction that describes the task
task = 'Given a web search query, retrieve relevant passages that answer the query'
queries = [
    get_detailed_instruct(task, 'What is the capital of China?'),
    get_detailed_instruct(task, 'Explain gravity')
]
# No need to add instruction for retrieval documents
documents = [
    "The capital of China is Beijing.",
    "Gravity is a force that attracts two bodies towards each other. It gives weight to physical objects and is responsible for the movement of planets around the sun."
]
input_texts = queries + documents
model = LLM(model="Qwen/Qwen3-Embedding-8B", task="embed")
outputs = model.embed(input_texts)
embeddings = torch.tensor([o.outputs.embedding for o in outputs])
scores = (embeddings[:2] @ embeddings[2:].T)
print(scores.tolist())
# [[0.7482624650001526, 0.07556197047233582], [0.08875375241041183, 0.6300010681152344]]

📚 ドキュメント

モデル生成の詳細

このモデルは、llama.cpp のコミット 1f63e75f で生成されました。

適切なモデル形式の選択

正しいモデル形式の選択は、ハードウェア能力 と メモリ制約 に依存します。

BF16 (Brain Float 16) – BF16アクセラレーションが利用可能な場合に使用

高速な計算を目的とした16ビット浮動小数点数形式で、良好な精度を維持します。
FP32と同様のダイナミックレンジを提供しながら、メモリ使用量を削減します。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨されます。
FP32に比べてメモリ使用量を削減した高性能な推論に最適です。

BF16を使用する場合：

ハードウェアがネイティブのBF16サポートを持っている場合（例：新しいGPU、TPU）。
メモリを節約しながらより高い精度が必要な場合。
モデルを別の形式に再量子化する予定がある場合。

BF16を避ける場合：

ハードウェアがBF16をサポートしていない場合（FP32にフォールバックし、低速になる可能性があります）。
BF16最適化を持たない古いデバイスとの互換性が必要な場合。

F16 (Float 16) – BF16よりも広くサポートされています

16ビット浮動小数点数形式で、高い精度を持ちながら、BF16よりも値の範囲が狭いです。
FP16アクセラレーションをサポートするほとんどのデバイスで動作します（多くのGPUや一部のCPUを含む）。
BF16よりもわずかに数値精度が低いですが、一般的に推論には十分です。

F16を使用する場合：

ハードウェアがFP16をサポートしているが、BF16をサポートしていない場合。
速度、メモリ使用量、精度のバランスが必要な場合。
FP16計算に最適化されたGPUまたは他のデバイスで実行している場合。

F16を避ける場合：

デバイスがネイティブのFP16サポートを持っていない場合（予想よりも低速になる可能性があります）。
メモリ制限がある場合。

ハイブリッド精度モデル (例: `bf16_q8_0`, `f16_q4_K`) – 両方の良いところを兼ね備えたモデル

これらの形式は、重要でないレイヤーを選択的に量子化しながら、重要なレイヤー（例：アテンションと出力レイヤー）をフル精度で保持します。

bf16_q8_0 のように命名されています（フル精度のBF16コアレイヤー + 量子化されたQ8_0の他のレイヤーを意味します）。
メモリ効率と精度のバランスを取り、完全に量子化されたモデルよりも改善され、BF16/F16の全メモリを必要としません。

ハイブリッドモデルを使用する場合：

量子化のみのモデルよりも高い精度が必要で、すべての場所でフルBF16/F16を使用できない場合。
デバイスが混合精度推論をサポートしている場合。
制約のあるハードウェア上の本番グレードのモデルのトレードオフを最適化したい場合。

ハイブリッドモデルを避ける場合：

ターゲットデバイスが混合またはフル精度アクセラレーションをサポートしていない場合。
超厳格なメモリ制限の下で動作している場合（この場合は完全に量子化された形式を使用してください）。

量子化モデル (Q4_K, Q6_K, Q8など) – CPUと低VRAM推論用

量子化は、可能な限り精度を維持しながら、モデルサイズとメモリ使用量を削減します。

低ビットモデル (Q4_K) – 最小限のメモリ使用量に最適ですが、精度が低い可能性があります。
高ビットモデル (Q6_K, Q8_0) – より高い精度を提供しますが、より多くのメモリを必要とします。

量子化モデルを使用する場合：

CPUで推論を実行し、最適化されたモデルが必要な場合。
デバイスのVRAMが低く、フル精度モデルをロードできない場合。
適度な精度を維持しながら、メモリ使用量を削減したい場合。

量子化モデルを避ける場合：

最大の精度が必要な場合（フル精度モデルの方が適しています）。
ハードウェアに高い精度の形式（BF16/F16）に十分なVRAMがある場合。

超低ビット量子化 (IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0)

これらのモデルは、非常に高いメモリ効率を目的として最適化されており、低電力デバイスまたはメモリが重要な制約となる大規模な展開に最適です。

IQ3_XS：超低ビット量子化（3ビット）で、非常に高いメモリ効率を持ちます。
- 使用例：Q4_Kでさえ大きすぎる超低メモリデバイスに最適です。
- トレードオフ：高ビット量子化に比べて精度が低いです。
IQ3_S：最大のメモリ効率のための小さなブロックサイズ。
- 使用例：IQ3_XSが過度に制限的な低メモリデバイスに最適です。
IQ3_M：IQ3_Sよりも精度が高い中ブロックサイズ。
- 使用例：IQ3_Sが制限的すぎる低メモリデバイスに適しています。
Q4_K：ブロック単位の最適化により、精度が向上した4ビット量子化。
- 使用例：Q6_Kが大きすぎる低メモリデバイスに最適です。
Q4_0：純粋な4ビット量子化で、ARMデバイス用に最適化されています。
- 使用例：ARMベースのデバイスまたは低メモリ環境に最適です。

超超低ビット量子化 (IQ1_S IQ1_M IQ2_S IQ2_M IQ2_XS IQ2_XSS)

超超低ビット量子化（1 2ビット）で、非常に高いメモリ効率を持ちます。
- 使用例：非常に制約のあるメモリにモデルを収める必要がある場合に最適です。
- トレードオフ：非常に低い精度。期待通りに機能しない可能性があります。使用前に十分にテストしてください。

モデル形式選択の概要表

モデル形式	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	非常に高い	高い	BF16対応のGPU/CPU	メモリを削減した高速推論
F16	高い	高い	FP16対応のGPU/CPU	BF16が利用できない場合の推論
Q4_K	中 - 低	低い	CPUまたは低VRAMデバイス	メモリ制約のある推論
Q6_K	中	適度	より多くのメモリを持つCPU	量子化によるより高い精度
Q8_0	高い	適度	適度なVRAMを持つGPU/CPU	量子化モデルの中で最も高い精度
IQ3_XS	低い	非常に低い	超低メモリデバイス	最大のメモリ効率、低い精度
IQ3_S	低い	非常に低い	低メモリデバイス	IQ3_XSよりも少し使いやすい
IQ3_M	低 - 中	低い	低メモリデバイス	IQ3_Sよりも高い精度
Q4_0	低い	低い	ARMベース/組み込みデバイス	Llama.cppがARM推論用に自動的に最適化します
*Ultra Low-Bit (IQ1/2_)**	非常に低い	非常に低い	小型のエッジ/組み込みデバイス	非常に制約のあるメモリにモデルを収める; 低い精度
Hybrid (e.g., `bf16_q8_0`)	中 - 高	中	混合精度対応のハードウェア	バランスの取れたパフォーマンスとメモリ、重要なレイヤーでのFPに近い精度

Qwen3 Embeddingシリーズモデルリスト

モデルタイプ	モデル	サイズ	レイヤー	シーケンス長	埋め込み次元	MRLサポート	命令対応
テキスト埋め込み	Qwen3-Embedding-0.6B	0.6B	28	32K	1024	はい	はい
テキスト埋め込み	Qwen3-Embedding-4B	4B	36	32K	2560	はい	はい
テキスト埋め込み	Qwen3-Embedding-8B	8B	36	32K	4096	はい	はい
テキスト再ランキング	Qwen3-Reranker-0.6B	0.6B	28	32K	-	-	はい
テキスト再ランキング	Qwen3-Reranker-4B	4B	36	32K	-	-	はい
テキスト再ランキング	Qwen3-Reranker-8B	8B	36	32K	-	-	はい

⚠️ 重要提示

MRLサポート は、埋め込みモデルが最終的な埋め込みのカスタム次元をサポートしているかどうかを示します。

命令対応 は、埋め込みまたは再ランキングモデルが異なるタスクに応じて入力命令をカスタマイズできるかどうかを示します。

私たちの評価によると、ほとんどの下流タスクでは、命令（instruct）を使用すると、使用しない場合に比べて通常1％から5％の改善が見られます。したがって、開発者は自分のタスクやシナリオに合わせたカスタム命令を作成することをお勧めします。多言語環境では、モデルのトレーニング中に使用されたほとんどの命令が英語で書かれていたため、ユーザーにも英語で命令を書くことをお勧めします。

評価

MTEB (多言語)

モデル	サイズ	平均 (タスク)	平均 (タイプ)	バイテキストマイニング	分類.	クラスタリング.	命令付き検索	多クラス分類.	ペア分類.	再ランキング	検索	STS
NV-Embed-v2	7B	56.29	49.58	57.84	57.29	40.80	1.04	18.63	78.94	63.82	56.72	71.10
GritLM-7B	7B	60.92	53.74	70.53	61.83	49.75	3.45	22.77	79.94	63.78	58.31	73.33
BGE-M3	0.6B	59.56	52.18	79.11	60.35	40.88	-3.11	20.1	80.76	62.79	54.60	74.12
multilingual-e5-large-instruct	0.6B	63.22	55.08	80.13	64.94	50.75	-0.40	22.91	80.86	62.61	57.12	76.81
gte-Qwen2-1.5B-instruct	1.5B	59.45	52.69	62.51	58.32	52.05	0.74	24.02	81.58	62.58	60.78	71.61
gte-Qwen2-7b-Instruct	7B	62.51	55.93	73.92	61.55	52.77	4.94	25.48	85.13	65.55	60.08	73.98
text-embedding-3-large	-	58.93	51.41	62.17	60.27	46.89	-2.68	22.03	79.17	63.89	59.27	71.68
Cohere-embed-multilingual-v3.0	-	61.12	53.23	70.50	62.95	46.89	-1.89	22.74	79.88	64.07	59.16	74.80
gemini-embedding-exp-03-07	-	68.37	59.59	79.28	71.82	54.59	5.18	29.16	83.63	65.58	67.71	79.40
Qwen3-Embedding-0.6B	0.6B	64.33	56.00	72.22	66.83	52.33	5.09	24.59	80.83	61.41	64.