LLaVA - Meta - Llama - 3 - 8B - Instructオープンソースのマルチモーダルモデル、無料で視覚言語理解能力を体験！

ホーム

Llava Meta Llama 3 8B Instruct

MBZUAIによって開発

Meta-Llama-3-8B-InstructとLLaVA-v1.5を統合したマルチモーダルモデルで、先進的な視覚-言語理解能力を提供

画像生成テキスト

Transformers

#マルチモーダル理解 #視覚-言語インタラクション #LoRAファインチューニング

ダウンロード数 20

リリース時間 : 4/26/2024

モデル概要

このモデルはMeta-Llama-3-8B-Instructの言語理解能力とLLaVAの視覚処理能力を組み合わせ、視覚-言語連携タスクを処理可能

モデル特徴

二段階トレーニング戦略

事前学習とファインチューニングの二段階戦略を採用し、まず視覚から言語へのプロジェクタを訓練し、その後LoRA技術で大規模言語モデルを微調整

効率的なパラメータ利用

視覚プロジェクタと言語モデルパラメータの一部のみを訓練し、視覚バックボーンネットワークを凍結することでトレーニング効率を向上

マルチモーダル能力

強力な言語モデルと視覚処理能力を組み合わせ、画像関連のテキスト内容を理解・生成可能

モデル能力

視覚-言語理解

画像キャプション生成

視覚的質問応答

マルチモーダル推論

使用事例

教育

画像補助学習

学生が複雑な概念の視覚的表現を理解するのを支援

学習効率と理解深度の向上

コンテンツ作成

自動画像タグ付け

画像の詳細な説明やタイトルを生成

コンテンツ管理ワークフローの簡素化

支援技術

視覚支援

視覚障害者向けに画像内容を説明

アクセシビリティの向上

プロパティ	詳細
ベースの大規模言語モデル (LLM)	Meta-Llama-3-8B-Instruct
ベースの大規模マルチモーダルモデル (LMM)	LLaVA-v1.5

プロパティ	詳細
事前学習データセット	LCS-558K
微調整データセット	LLaVA-Instruct-665K

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Llava Meta Llama 3 8B Instruct

モデル概要

モデル特徴

モデル能力

使用事例

🚀 LLaMA-3-V: Meta-Llama-3-8B-Instructを用いたLLaVAの視覚機能拡張

🚀 クイックスタート

✨ 主な機能

🔧 技術詳細

訓練戦略

主要コンポーネント

訓練データ

🤝 コントリビューション