L

Llama 3.2 11B Vision Instruct

meta-llamaによって開発
Llama 3.2はMetaがリリースした多言語マルチモーダル大規模言語モデルで、画像テキストからテキストへの変換タスクをサポートし、強力なクロスモーダル理解能力を備えています。
ダウンロード数 784.19k
リリース時間 : 9/18/2024

モデル概要

Llama 3.2はTransformerアーキテクチャに基づくマルチモーダルモデルで、画像とテキスト入力を処理し、詳細なテキスト出力を生成できます。芸術分析、チャート理解、ドキュメントQAなど様々なシーンに適用可能です。

モデル特徴

マルチモーダル理解
画像とテキスト入力を同時に処理し、一貫性のある詳細なテキスト出力を生成できます。
多言語サポート
英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語など複数の言語をサポートしています。
芸術とチャート分析
芸術作品の時代的特徴やスタイルを分析し、チャートから重要な情報を抽出できます。
ドキュメントQA
請求書などのドキュメントから重要な情報を抽出し、関連する質問に答えることができます。

モデル能力

画像理解
テキスト生成
クロスモーダル推論
多言語処理
芸術スタイル分析
チャートデータ抽出
ドキュメント情報抽出

使用事例

芸術分析
ロココ芸術分析
ロココ芸術作品のスタイル特徴と時代背景を分析します。
ロココ時代の芸術的特徴を詳細に説明でき、柔らかな色彩、曲線的なライン、複雑な装飾ディテールなどを含みます。
チャート理解
干ばつ地域分析
チャートから干ばつが発生した地域情報を抽出します。
2016年に深刻な干ばつに見舞われた地域(東部および南部アフリカなど)を正確に識別してリストアップできます。
ドキュメントQA
請求書日付計算
請求書から日付情報を抽出し、時間差を計算します。
請求書日付と支払期日との間の日数差(15日など)を正確に計算できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase