Llama-3.2V - 11B - cotオープンソースビジュアル言語モデル

Home

Llama 3.2V 11B Cot

Developed by Xkev

Llama-3.2V-11B-cot は自発的かつ体系的な推論が可能な視覚言語モデルで、LLaVA-CoTフレームワークに基づいて開発されました。

画像生成テキスト

Transformers

EnglishOpen Source License:Apache-2.0 #視覚言語推論 #マルチモーダル思考連鎖 #体系的推論

Downloads 5,089

Release Time : 11/19/2024

Model Overview

このモデルはLLaVA-CoTの初版であり、視覚言語タスクにおける段階的推論能力に焦点を当て、画像からテキストへの変換と理解をサポートします。

Model Features

段階的推論能力

体系的で段階的な視覚言語推論をサポートし、複雑なマルチモーダルタスクを処理できます。

高性能ベンチマーク

複数の視覚言語ベンチマークで優れた性能を発揮し、平均スコアは63.5点です。

長文生成

最大2048の新規トークンを生成可能で、長文出力が必要なタスクに適しています。

Model Capabilities

画像理解

テキスト生成

マルチモーダル推論

視覚質問応答

Use Cases

教育

視覚数学問題解答

図表や数式を含む数学問題を解答

MathVistaベンチマークで54.8点を獲得

汎用AIアシスタント

マルチモーダル対話

画像とテキスト入力を基にしたインテリジェントな対話

MMBenchベンチマークで75.0点を獲得

🚀 Llama-3.2V-11B-cot

Llama-3.2V-11B-cotは、自発的かつ体系的な推論が可能な視覚言語モデルであるLLaVA-CoTの最初のバージョンです。このモデルは、画像とテキストを入力として受け取り、テキストを出力することができます。

🚀 クイックスタート

Llama-3.2-11B-Vision-Instructの推論コードを使用することができます。

✨ 主な機能

Llama-3.2V-11B-cotは、自発的かつ体系的な推論が可能な視覚言語モデルです。

📦 インストール

このREADMEにはインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

このREADMEには使用例が記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデルの詳細

ライセンス：apache-2.0
ファインチューニング元のモデル：meta-llama/Llama-3.2-11B-Vision-Instruct

プロパティ	詳細
モデルタイプ	視覚言語モデル
訓練データ	LLaVA-CoT-100kデータセット

ベンチマーク結果

MMStar	MMBench	MMVet	MathVista	AI2D	Hallusion	平均
57.6	75.0	60.3	54.8	85.7	47.8	63.5

再現方法

結果を再現するには、VLMEvalKitと以下の設定を使用する必要があります。

パラメータ	値
do_sample	True
temperature	0.6
top_p	0.9
max_new_tokens	2048

これらのパラメータは、このファイルの80-83行目で変更することができ、ファイル全体のmax_new_tokensを変更することができます。

注意: Llama-3.2-11B-Vision-Instructと同じ設定を使用していますが、max_new_tokensを2048に拡張しています。

結果を取得した後、モデルの出力をフィルタリングし、との間の出力のみを保持する必要があります。

理論的には違いはないはずですが、経験的には、評価者のGPT-4oが時々不正確になるため、パフォーマンスに差が見られます。

との間の出力を保持することで、ほとんどの回答をVLMEvalKitシステムを使用して直接抽出することができ、バイアスを大幅に減らすことができます。

訓練の詳細

訓練データ

このモデルは、LLaVA-CoT-100kデータセットで訓練されています。

訓練手順

このモデルは、llama-recipesで以下の設定でファインチューニングされています。同じ設定を使用することで、正確に結果を再現することができます。

パラメータ	値
FSDP	有効
lr	1e-5
num_epochs	3
batch_size_training	4
use_fast_kernels	True
run_validation	False
batching_strategy	パディング
context_length	4096
gradient_accumulation_steps	1
gradient_clipping	False
gradient_clipping_threshold	1.0
weight_decay	0.0
gamma	0.85
seed	42
use_fp16	False
mixed_precision	True