L

Llama 3.2V 11B Cot

Developed by Xkev
Llama-3.2V-11B-cot は自発的かつ体系的な推論が可能な視覚言語モデルで、LLaVA-CoTフレームワークに基づいて開発されました。
Downloads 5,089
Release Time : 11/19/2024

Model Overview

このモデルはLLaVA-CoTの初版であり、視覚言語タスクにおける段階的推論能力に焦点を当て、画像からテキストへの変換と理解をサポートします。

Model Features

段階的推論能力
体系的で段階的な視覚言語推論をサポートし、複雑なマルチモーダルタスクを処理できます。
高性能ベンチマーク
複数の視覚言語ベンチマークで優れた性能を発揮し、平均スコアは63.5点です。
長文生成
最大2048の新規トークンを生成可能で、長文出力が必要なタスクに適しています。

Model Capabilities

画像理解
テキスト生成
マルチモーダル推論
視覚質問応答

Use Cases

教育
視覚数学問題解答
図表や数式を含む数学問題を解答
MathVistaベンチマークで54.8点を獲得
汎用AIアシスタント
マルチモーダル対話
画像とテキスト入力を基にしたインテリジェントな対話
MMBenchベンチマークで75.0点を獲得
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase