L

Llama 3.2 11B Vision Instruct

alpindaleによって開発
Llama 3.2-VisionはMetaが開発したマルチモーダル大規模言語モデルで、画像とテキスト入力をサポートし、視覚認識、画像推論、記述などのタスクが可能です。
ダウンロード数 3,057
リリース時間 : 9/25/2024

モデル概要

Llama 3.2-VisionはLlama 3.1純粋テキストモデルを基に構築されたマルチモーダルモデルで、視覚認識、画像推論、画像記述、画像に関する一般的な質問への回答に最適化されています。

モデル特徴

マルチモーダル能力
画像とテキスト入力をサポートし、画像に関連するテキスト内容を理解し生成できます。
大規模パラメータ
11Bと90Bの2つのパラメータ規模のモデルを提供し、異なる計算ニーズに対応します。
多言語サポート
英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語を含む複数言語をサポートします。
最適化された視覚認識
視覚認識、画像推論、記述タスクに特化して最適化されており、多くのオープンソースおよびクローズドソースのマルチモーダルモデルよりも優れた性能を発揮します。

モデル能力

視覚認識
画像推論
画像記述
多言語テキスト生成
画像に関する質問への回答

使用事例

画像理解
画像記述生成
入力された画像に対して詳細なテキスト記述を生成します。
生成された記述は正確かつ詳細で、視覚障害ユーザーの支援に適しています。
視覚的質問応答
ユーザーの画像内容に関する質問に回答します。
画像中の物体、シーン、関係に関する複雑な質問に正確に回答できます。
多言語アプリケーション
多言語画像注釈
複数の言語で画像に注釈や記述を生成します。
多言語での画像理解と記述をサポートし、国際化アプリケーションに適しています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase