Qwen2-VL-2B-Instruct-GGUFオープンソースモデル - 多モーダル画像テキスト生成タスクを無料で実現

ホーム

Qwen2 VL 2B Instruct GGUF

second-stateによって開発

Qwen2-VL-2B-Instruct はマルチモーダルな視覚言語モデルで、画像テキスト生成タスクをサポートし、Qwen2 アーキテクチャに基づいており、パラメータ規模は2Bです。

画像生成テキスト英語オープンソースライセンス:Apache-2.0 #マルチモーダル画像理解 #軽量級ビジュアルQA #低リソース展開

ダウンロード数 125

リリース時間 : 12/15/2024

モデル概要

このモデルはマルチモーダルな視覚言語モデルで、画像とテキスト入力を処理し、関連するテキスト出力を生成できます。視覚と言語理解を組み合わせる必要があるアプリケーションシナリオに適しています。

モデル特徴

マルチモーダルサポート

画像とテキスト入力を同時に処理し、関連するテキスト出力を生成できます。

効率的な量子化

さまざまな量子化バージョンのモデルを提供し、異なるハードウェアと性能要件に対応します。

長いコンテキストサポート

最大32000のコンテキスト長をサポートし、複雑なタスクの処理に適しています。

モデル能力

画像テキスト生成

マルチモーダル理解

ビジュアルQA

使用事例

ビジュアルQA

画像説明生成

入力画像に基づいて詳細なテキスト説明を生成します。

ビジュアルQA

入力画像に関する質問に答えます。

マルチモーダルインタラクション

画像とテキストを組み合わせたタスク

画像とテキスト入力を組み合わせ、関連するテキスト出力を生成します。

🚀 Qwen2-VL-2B-Instruct-GGUF

このプロジェクトは、Qwen/Qwen2-VL-2B-Instruct モデルを量子化した GGUF 形式のモデルを提供し、LlamaEdge と連携して実行することができます。

🚀 クイックスタート

オリジナルモデル

元のモデルは Qwen/Qwen2-VL-2B-Instruct です。

LlamaEdge での実行

LlamaEdge バージョン: v0.16.0

プロンプトテンプレート

プロンプトタイプ: qwen2-vision

プロンプト文字列

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
<|vision_start|>{image_placeholder}<|vision_end|>{user_prompt}<|im_end|>
<|im_start|>assistant

コンテキストサイズ: 32000

LlamaEdge サービスとして実行

wasmedge --dir .:. \
  --nn-preload default:GGML:AUTO:Qwen2-VL-2B-Instruct-Q5_K_M.gguf \
  llama-api-server.wasm \
  --model-name Qwen2-VL-2B-Instruct \
  --prompt-template qwen2-vision \
  --llava-mmproj Qwen2-VL-2B-Instruct-vision-encoder.gguf \
  --ctx-size 32000

📦 量子化された GGUF モデル

名前	量子化方法	ビット数	サイズ	使用ケース
Qwen2-VL-2B-Instruct-Q2_K.gguf	Q2_K	2	676 MB	最も小さいが、品質が大幅に低下するため、ほとんどの用途では推奨されません
Qwen2-VL-2B-Instruct-Q3_K_L.gguf	Q3_K_L	3	880 MB	小さいが、品質が大きく低下する
Qwen2-VL-2B-Instruct-Q3_K_M.gguf	Q3_K_M	3	824 MB	非常に小さいが、品質が大きく低下する
Qwen2-VL-2B-Instruct-Q3_K_S.gguf	Q3_K_S	3	761 MB	非常に小さいが、品質が大きく低下する
Qwen2-VL-2B-Instruct-Q4_0.gguf	Q4_0	4	935 MB	旧形式; 小さいが、品質が非常に大きく低下するため、Q3_K_M の使用を推奨
Qwen2-VL-2B-Instruct-Q4_K_M.gguf	Q4_K_M	4	986 MB	中程度で、品質がバランスが良い - 推奨
Qwen2-VL-2B-Instruct-Q4_K_S.gguf	Q4_K_S	4	940 MB	小さいが、品質の低下が大きい
Qwen2-VL-2B-Instruct-Q5_0.gguf	Q5_0	5	1.10 GB	旧形式; 中程度で、品質がバランスが良い - Q4_K_M の使用を推奨
Qwen2-VL-2B-Instruct-Q5_K_M.gguf	Q5_K_M	5	1.13 GB	大きいが、品質の低下が非常に少ない - 推奨
Qwen2-VL-2B-Instruct-Q5_K_S.gguf	Q5_K_S	5	1.10 GB	大きいが、品質の低下が少ない - 推奨
Qwen2-VL-2B-Instruct-Q6_K.gguf	Q6_K	6	1.27 GB	非常に大きいが、品質の低下が極めて少ない
Qwen2-VL-2B-Instruct-Q8_0.gguf	Q8_0	8	1.65 GB	非常に大きいが、品質の低下が極めて少ない - 推奨しない
Qwen2-VL-2B-Instruct-f16.gguf	f16	16	3.09 GB
Qwen2-VL-2B-Instruct-vision-encoder.gguf	f16	16	2.66 GB