L

Llama 3.1 8B Dragonfly V2

由togethercomputer開發
蜻蜓是基於Llama 3.1通過指令微調訓練的多模態視覺語言模型,支持圖像與文本的聯合理解與生成
下載量 113
發布時間 : 10/10/2024

模型概述

該模型主要用於視覺語言任務研究,能夠處理圖像與文本的聯合輸入,生成相關的文本描述或回答

模型特點

多分辨率圖像處理
採用LLaVA-UHD高分辨率圖像處理方案,增強對視覺細節的捕捉能力
指令微調優化
基於Llama 3.1進行指令微調,提升對複雜視覺語言任務的理解能力
多模態融合
有效整合CLIP視覺特徵與Llama語言模型,實現圖像與文本的深度交互

模型能力

圖像內容理解
視覺問答
圖像描述生成
多模態推理

使用案例

藝術與創意
藝術作品分析
分析藝術作品的內容、風格和創作意圖
能準確識別藝術風格並生成富有洞察力的分析
教育
視覺輔助學習
通過圖像輔助解釋複雜概念
提供直觀易懂的多模態解釋
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase