L

Llama 3.1 8B Dragonfly V2

togethercomputerによって開発
トンボはLlama 3.1をベースに命令微調整で訓練されたマルチモーダル視覚言語モデルで、画像とテキストの統合的理解と生成をサポートします
ダウンロード数 113
リリース時間 : 10/10/2024

モデル概要

このモデルは主に視覚言語タスクの研究に使用され、画像とテキストの統合入力を処理し、関連するテキスト記述や回答を生成できます

モデル特徴

マルチ解像度画像処理
LLaVA-UHD高解像度画像処理ソリューションを採用し、視覚的詳細の捕捉能力を強化
命令微調整最適化
Llama 3.1をベースに命令微調整を行い、複雑な視覚言語タスクの理解能力を向上
マルチモーダル融合
CLIP視覚特徴とLlama言語モデルを効果的に統合し、画像とテキストの深い相互作用を実現

モデル能力

画像内容理解
視覚的質問応答
画像記述生成
マルチモーダル推論

使用事例

芸術と創造
芸術作品分析
芸術作品の内容、スタイル、創作意図を分析
芸術スタイルを正確に識別し、洞察に富んだ分析を生成可能
教育
視覚的補助学習
画像を通じて複雑な概念を説明
直感的で分かりやすいマルチモーダル説明を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase