Llama 3.2V 11B Cot
Llama-3.2V-11B-cot は自発的かつ体系的な推論が可能な視覚言語モデルで、LLaVA-CoTフレームワークに基づいて開発されました。
Downloads 5,089
Release Time : 11/19/2024
Model Overview
このモデルはLLaVA-CoTの初版であり、視覚言語タスクにおける段階的推論能力に焦点を当て、画像からテキストへの変換と理解をサポートします。
Model Features
段階的推論能力
体系的で段階的な視覚言語推論をサポートし、複雑なマルチモーダルタスクを処理できます。
高性能ベンチマーク
複数の視覚言語ベンチマークで優れた性能を発揮し、平均スコアは63.5点です。
長文生成
最大2048の新規トークンを生成可能で、長文出力が必要なタスクに適しています。
Model Capabilities
画像理解
テキスト生成
マルチモーダル推論
視覚質問応答
Use Cases
教育
視覚数学問題解答
図表や数式を含む数学問題を解答
MathVistaベンチマークで54.8点を獲得
汎用AIアシスタント
マルチモーダル対話
画像とテキスト入力を基にしたインテリジェントな対話
MMBenchベンチマークで75.0点を獲得
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98