L

Llava V1.5 13B GPTQ

TheBlokeによって開発
Llava v1.5 13BはHaotian Liuによって開発されたマルチモーダルモデルで、視覚と言語の能力を組み合わせ、画像とテキストに基づくコンテンツを理解し生成できます。
ダウンロード数 131
リリース時間 : 10/15/2023

モデル概要

Llava v1.5 13BはLlamaアーキテクチャに基づくマルチモーダルモデルで、画像とテキストの共同処理をサポートし、視覚的質問応答や画像キャプション生成などのタスクに適しています。

モデル特徴

マルチモーダル能力
視覚と言語処理能力を組み合わせ、画像とテキストに基づくコンテンツを理解し生成できます。
効率的な量子化
さまざまなGPTQ量子化バージョンを提供し、異なるハードウェア要件に対応し、推論コストを削減します。
高性能
Llamaアーキテクチャに基づき、強力な推論と生成能力を備えています。

モデル能力

画像理解
テキスト生成
視覚的質問応答
画像キャプション生成

使用事例

教育
視覚的質問応答
画像の内容に基づいてユーザーの質問に答えます。
正確かつ詳細な回答を提供します。
コンテンツ生成
画像キャプション生成
画像に対して詳細なテキスト説明を生成します。
自然で正確な説明テキストを生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase