Qwen2-VL-72B-Instruct-GGUFオープンソースマルチモーダルモデル - マルチモーダルタスクをサポートし、GaiaNetを借りて実行可能

Qwen2 VL 72B Instruct GGUF

gaianetによって開発

Qwen2-VL-72B-Instruct-GGUFは、元のモデルを量子化処理したバージョンで、マルチモーダルタスクをサポートし、GaiaNetを通じて実行できます。

ダウンロード数 1,803

リリース時間 : 12/15/2024

モデル概要

これはマルチモーダルモデルで、画像テキストからテキストへのタスクをサポートし、複雑な視覚言語理解と生成タスクに適しています。

マルチモーダルサポート

画像とテキストの連合処理をサポートし、複雑な視覚言語タスクに適しています。

高パラメータ数

720億のパラメータを持ち、強力な理解と生成能力を備えています。

量子化バージョン

量子化処理が施されており、リソースが限られたデバイスでの実行が容易です。

画像理解

テキスト生成

マルチモーダル推論

視覚質問応答

画像記述生成

入力された画像に基づいて詳細なテキスト記述を生成します。

文書理解

文書内容抽出

画像内の文書から重要な情報を抽出し、構造化されたテキストを生成します。

属性	詳細
ベースモデル	Qwen/Qwen2-VL-72B-Instruct
ライセンス	その他（通義千問ライセンス）
ライセンスリンク	https://huggingface.co/Qwen/Qwen2-VL-72B-Instruct/blob/main/LICENSE
モデル作成者	Qwen
モデル名	Qwen2-VL-72B-Instruct
量子化者	Second State Inc.
言語	英語
タスクタイプ	画像テキストからテキスト
タグ	マルチモーダル
ライブラリ名	transformers