Qwen3 Embedding 8B GGUF
Qwen3-Embedding-8BはQwenファミリーの最新の専用モデルで、テキスト埋め込みとソートタスク用に設計されており、Qwen3シリーズの密集型基礎モデルに基づいて構築され、卓越した多言語能力と長文理解能力を持っています。
Downloads 612
Release Time : 6/10/2025
Model Overview
Qwen3-Embedding-8Bは高性能のテキスト埋め込みモデルで、テキスト検索、コード検索、テキスト分類、テキストクラスタリング、バイリンガルマイニングなどの様々なタスクに適しています。
Model Features
卓越した汎用性
埋め込みモデルは幅広い下流アプリケーション評価で最先端の性能を達成し、8Bサイズの埋め込みモデルはMTEB多言語ランキングで1位を占めています。
全面的な柔軟性
Qwen3埋め込みシリーズは、埋め込みと再ソートモデルに対して全範囲のサイズ(0.6Bから8B)を提供し、効率と効果を重視する様々なユースケースを満たします。
多言語能力
100種類以上の言語をサポートし、様々なプログラミング言語も含まれ、強力な多言語、クロス言語、コード検索能力を提供します。
Model Capabilities
テキスト検索
コード検索
テキスト分類
テキストクラスタリング
バイリンガルマイニング
Use Cases
情報検索
ウェブ検索
ウェブ検索クエリを与えられた場合、クエリに回答するための関連段落を検索します。
複数のテキスト検索タスクで優れた性能を発揮します
自然言語処理
テキスト分類
テキストを分類します。例えば、感情分析、トピック分類などです。
複数のテキスト分類タスクで著しい進歩を遂げました
🚀 Qwen/Qwen3-Embedding-8B GGUFモデル
Qwen/Qwen3-Embedding-8B GGUFモデルは、テキスト埋め込みとランキングタスクに特化したモデルです。Transformerアーキテクチャをベースに構築され、多言語対応や高い精度での埋め込み生成が可能です。
🚀 クイックスタート
このモデルを使用する前に、必要なライブラリをインストールする必要があります。詳細なインストール手順や使用方法は以下のセクションを参照してください。
✨ 主な機能
- 多言語対応:100以上の言語をサポートし、多言語やクロスリンガル、コード検索に強力な機能を提供します。
- 高い汎用性:下流の様々なアプリケーション評価で最先端の性能を達成しています。
- 柔軟性:埋め込みモデルは全次元で柔軟なベクトル定義が可能で、埋め込みと再ランキングモデルはユーザー定義の命令をサポートします。
📦 インストール
このモデルを使用するには、transformers
と sentence-transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers>=4.51.0 sentence-transformers>=2.7.0
💻 使用例
基本的な使用法
# Requires transformers>=4.51.0
# Requires sentence-transformers>=2.7.0
from sentence_transformers import SentenceTransformer
# Load the model
model = SentenceTransformer("Qwen/Qwen3-Embedding-8B")
# We recommend enabling flash_attention_2 for better acceleration and memory saving,
# together with setting `padding_side` to "left":
# model = SentenceTransformer(
# "Qwen/Qwen3-Embedding-8B",
# model_kwargs={"attn_implementation": "flash_attention_2", "device_map": "auto"},
# tokenizer_kwargs={"padding_side": "left"},
# )
# The queries and documents to embed
queries = [
"What is the capital of China?",
"Explain gravity",
]
documents = [
"The capital of China is Beijing.",
"Gravity is a force that attracts two bodies towards each other. It gives weight to physical objects and is responsible for the movement of planets around the sun.",
]
# Encode the queries and documents. Note that queries benefit from using a prompt
# Here we use the prompt called "query" stored under `model.prompts`, but you can
# also pass your own prompt via the `prompt` argument
query_embeddings = model.encode(queries, prompt_name="query")
document_embeddings = model.encode(documents)
# Compute the (cosine) similarity between the query and document embeddings
similarity = model.similarity(query_embeddings, document_embeddings)
print(similarity)
# tensor([[0.7493, 0.0751],
# [0.0880, 0.6318]])
高度な使用法
# Requires vllm>=0.8.5
import torch
import vllm
from vllm import LLM
def get_detailed_instruct(task_description: str, query: str) -> str:
return f'Instruct: {task_description}\nQuery:{query}'
# Each query must come with a one-sentence instruction that describes the task
task = 'Given a web search query, retrieve relevant passages that answer the query'
queries = [
get_detailed_instruct(task, 'What is the capital of China?'),
get_detailed_instruct(task, 'Explain gravity')
]
# No need to add instruction for retrieval documents
documents = [
"The capital of China is Beijing.",
"Gravity is a force that attracts two bodies towards each other. It gives weight to physical objects and is responsible for the movement of planets around the sun."
]
input_texts = queries + documents
model = LLM(model="Qwen/Qwen3-Embedding-8B", task="embed")
outputs = model.embed(input_texts)
embeddings = torch.tensor([o.outputs.embedding for o in outputs])
scores = (embeddings[:2] @ embeddings[2:].T)
print(scores.tolist())
# [[0.7482624650001526, 0.07556197047233582], [0.08875375241041183, 0.6300010681152344]]
📚 ドキュメント
モデル生成の詳細
このモデルは、llama.cpp のコミット 1f63e75f
で生成されました。
適切なモデル形式の選択
正しいモデル形式の選択は、ハードウェア能力 と メモリ制約 に依存します。
BF16 (Brain Float 16) – BF16アクセラレーションが利用可能な場合に使用
- 高速な計算を目的とした16ビット浮動小数点数形式で、良好な精度を維持します。
- FP32と同様のダイナミックレンジを提供しながら、メモリ使用量を削減します。
- ハードウェアがBF16アクセラレーションをサポートしている場合に推奨されます。
- FP32に比べてメモリ使用量を削減した高性能な推論に最適です。
BF16を使用する場合:
- ハードウェアがネイティブのBF16サポートを持っている場合(例:新しいGPU、TPU)。
- メモリを節約しながらより高い精度が必要な場合。
- モデルを別の形式に再量子化する予定がある場合。
BF16を避ける場合:
- ハードウェアがBF16をサポートしていない場合(FP32にフォールバックし、低速になる可能性があります)。
- BF16最適化を持たない古いデバイスとの互換性が必要な場合。
F16 (Float 16) – BF16よりも広くサポートされています
- 16ビット浮動小数点数形式で、高い精度を持ちながら、BF16よりも値の範囲が狭いです。
- FP16アクセラレーションをサポートするほとんどのデバイスで動作します(多くのGPUや一部のCPUを含む)。
- BF16よりもわずかに数値精度が低いですが、一般的に推論には十分です。
F16を使用する場合:
- ハードウェアがFP16をサポートしているが、BF16をサポートしていない場合。
- 速度、メモリ使用量、精度のバランスが必要な場合。
- FP16計算に最適化されたGPUまたは他のデバイスで実行している場合。
F16を避ける場合:
- デバイスがネイティブのFP16サポートを持っていない場合(予想よりも低速になる可能性があります)。
- メモリ制限がある場合。
ハイブリッド精度モデル (例: bf16_q8_0
, f16_q4_K
) – 両方の良いところを兼ね備えたモデル
これらの形式は、重要でないレイヤーを選択的に量子化しながら、重要なレイヤー(例:アテンションと出力レイヤー)をフル精度で保持します。
bf16_q8_0
のように命名されています(フル精度のBF16コアレイヤー + 量子化されたQ8_0の他のレイヤーを意味します)。- メモリ効率と精度のバランスを取り、完全に量子化されたモデルよりも改善され、BF16/F16の全メモリを必要としません。
ハイブリッドモデルを使用する場合:
- 量子化のみのモデルよりも高い精度が必要で、すべての場所でフルBF16/F16を使用できない場合。
- デバイスが混合精度推論をサポートしている場合。
- 制約のあるハードウェア上の本番グレードのモデルのトレードオフを最適化したい場合。
ハイブリッドモデルを避ける場合:
- ターゲットデバイスが混合またはフル精度アクセラレーションをサポートしていない場合。
- 超厳格なメモリ制限の下で動作している場合(この場合は完全に量子化された形式を使用してください)。
量子化モデル (Q4_K, Q6_K, Q8など) – CPUと低VRAM推論用
量子化は、可能な限り精度を維持しながら、モデルサイズとメモリ使用量を削減します。
- 低ビットモデル (Q4_K) – 最小限のメモリ使用量に最適ですが、精度が低い可能性があります。
- 高ビットモデル (Q6_K, Q8_0) – より高い精度を提供しますが、より多くのメモリを必要とします。
量子化モデルを使用する場合:
- CPUで推論を実行し、最適化されたモデルが必要な場合。
- デバイスのVRAMが低く、フル精度モデルをロードできない場合。
- 適度な精度を維持しながら、メモリ使用量を削減したい場合。
量子化モデルを避ける場合:
- 最大の精度が必要な場合(フル精度モデルの方が適しています)。
- ハードウェアに高い精度の形式(BF16/F16)に十分なVRAMがある場合。
超低ビット量子化 (IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0)
これらのモデルは、非常に高いメモリ効率を目的として最適化されており、低電力デバイスまたはメモリが重要な制約となる大規模な展開に最適です。
- IQ3_XS:超低ビット量子化(3ビット)で、非常に高いメモリ効率を持ちます。
- 使用例:Q4_Kでさえ大きすぎる超低メモリデバイスに最適です。
- トレードオフ:高ビット量子化に比べて精度が低いです。
- IQ3_S:最大のメモリ効率のための小さなブロックサイズ。
- 使用例:IQ3_XSが過度に制限的な低メモリデバイスに最適です。
- IQ3_M:IQ3_Sよりも精度が高い中ブロックサイズ。
- 使用例:IQ3_Sが制限的すぎる低メモリデバイスに適しています。
- Q4_K:ブロック単位の最適化により、精度が向上した4ビット量子化。
- 使用例:Q6_Kが大きすぎる低メモリデバイスに最適です。
- Q4_0:純粋な4ビット量子化で、ARMデバイス用に最適化されています。
- 使用例:ARMベースのデバイスまたは低メモリ環境に最適です。
超超低ビット量子化 (IQ1_S IQ1_M IQ2_S IQ2_M IQ2_XS IQ2_XSS)
- 超超低ビット量子化(1 2ビット)で、非常に高いメモリ効率を持ちます。
- 使用例:非常に制約のあるメモリにモデルを収める必要がある場合に最適です。
- トレードオフ:非常に低い精度。期待通りに機能しない可能性があります。使用前に十分にテストしてください。
モデル形式選択の概要表
モデル形式 | 精度 | メモリ使用量 | デバイス要件 | 最適な使用例 |
---|---|---|---|---|
BF16 | 非常に高い | 高い | BF16対応のGPU/CPU | メモリを削減した高速推論 |
F16 | 高い | 高い | FP16対応のGPU/CPU | BF16が利用できない場合の推論 |
Q4_K | 中 - 低 | 低い | CPUまたは低VRAMデバイス | メモリ制約のある推論 |
Q6_K | 中 | 適度 | より多くのメモリを持つCPU | 量子化によるより高い精度 |
Q8_0 | 高い | 適度 | 適度なVRAMを持つGPU/CPU | 量子化モデルの中で最も高い精度 |
IQ3_XS | 低い | 非常に低い | 超低メモリデバイス | 最大のメモリ効率、低い精度 |
IQ3_S | 低い | 非常に低い | 低メモリデバイス | IQ3_XSよりも少し使いやすい |
IQ3_M | 低 - 中 | 低い | 低メモリデバイス | IQ3_Sよりも高い精度 |
Q4_0 | 低い | 低い | ARMベース/組み込みデバイス | Llama.cppがARM推論用に自動的に最適化します |
Ultra Low-Bit (IQ1/2_*) | 非常に低い | 非常に低い | 小型のエッジ/組み込みデバイス | 非常に制約のあるメモリにモデルを収める; 低い精度 |
Hybrid (e.g., bf16_q8_0 ) |
中 - 高 | 中 | 混合精度対応のハードウェア | バランスの取れたパフォーマンスとメモリ、重要なレイヤーでのFPに近い精度 |
Qwen3 Embeddingシリーズモデルリスト
モデルタイプ | モデル | サイズ | レイヤー | シーケンス長 | 埋め込み次元 | MRLサポート | 命令対応 |
---|---|---|---|---|---|---|---|
テキスト埋め込み | Qwen3-Embedding-0.6B | 0.6B | 28 | 32K | 1024 | はい | はい |
テキスト埋め込み | Qwen3-Embedding-4B | 4B | 36 | 32K | 2560 | はい | はい |
テキスト埋め込み | Qwen3-Embedding-8B | 8B | 36 | 32K | 4096 | はい | はい |
テキスト再ランキング | Qwen3-Reranker-0.6B | 0.6B | 28 | 32K | - | - | はい |
テキスト再ランキング | Qwen3-Reranker-4B | 4B | 36 | 32K | - | - | はい |
テキスト再ランキング | Qwen3-Reranker-8B | 8B | 36 | 32K | - | - | はい |
⚠️ 重要提示
MRLサポート
は、埋め込みモデルが最終的な埋め込みのカスタム次元をサポートしているかどうかを示します。命令対応
は、埋め込みまたは再ランキングモデルが異なるタスクに応じて入力命令をカスタマイズできるかどうかを示します。- 私たちの評価によると、ほとんどの下流タスクでは、命令(instruct)を使用すると、使用しない場合に比べて通常1%から5%の改善が見られます。したがって、開発者は自分のタスクやシナリオに合わせたカスタム命令を作成することをお勧めします。多言語環境では、モデルのトレーニング中に使用されたほとんどの命令が英語で書かれていたため、ユーザーにも英語で命令を書くことをお勧めします。
評価
MTEB (多言語)
モデル | サイズ | 平均 (タスク) | 平均 (タイプ) | バイテキストマイニング | 分類. | クラスタリング. | 命令付き検索 | 多クラス分類. | ペア分類. | 再ランキング | 検索 | STS |
---|---|---|---|---|---|---|---|---|---|---|---|---|
NV-Embed-v2 | 7B | 56.29 | 49.58 | 57.84 | 57.29 | 40.80 | 1.04 | 18.63 | 78.94 | 63.82 | 56.72 | 71.10 |
GritLM-7B | 7B | 60.92 | 53.74 | 70.53 | 61.83 | 49.75 | 3.45 | 22.77 | 79.94 | 63.78 | 58.31 | 73.33 |
BGE-M3 | 0.6B | 59.56 | 52.18 | 79.11 | 60.35 | 40.88 | -3.11 | 20.1 | 80.76 | 62.79 | 54.60 | 74.12 |
multilingual-e5-large-instruct | 0.6B | 63.22 | 55.08 | 80.13 | 64.94 | 50.75 | -0.40 | 22.91 | 80.86 | 62.61 | 57.12 | 76.81 |
gte-Qwen2-1.5B-instruct | 1.5B | 59.45 | 52.69 | 62.51 | 58.32 | 52.05 | 0.74 | 24.02 | 81.58 | 62.58 | 60.78 | 71.61 |
gte-Qwen2-7b-Instruct | 7B | 62.51 | 55.93 | 73.92 | 61.55 | 52.77 | 4.94 | 25.48 | 85.13 | 65.55 | 60.08 | 73.98 |
text-embedding-3-large | - | 58.93 | 51.41 | 62.17 | 60.27 | 46.89 | -2.68 | 22.03 | 79.17 | 63.89 | 59.27 | 71.68 |
Cohere-embed-multilingual-v3.0 | - | 61.12 | 53.23 | 70.50 | 62.95 | 46.89 | -1.89 | 22.74 | 79.88 | 64.07 | 59.16 | 74.80 |
gemini-embedding-exp-03-07 | - | 68.37 | 59.59 | 79.28 | 71.82 | 54.59 | 5.18 | 29.16 | 83.63 | 65.58 | 67.71 | 79.40 |
Qwen3-Embedding-0.6B | 0.6B | 64.33 | 56.00 | 72.22 | 66.83 | 52.33 | 5.09 | 24.59 | 80.83 | 61.41 | 64. |
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers Supports Multiple Languages

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み English
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers English

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み English
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み English
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers Supports Multiple Languages

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers Supports Multiple Languages

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers Other

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors English
G
avsolatorio
945.68k
29
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98