H

Hillava Llama 3 1 8b

由HancomInSpaceAI開發
HiLLaVA-llama3.1是基於LLaVA架構的多模態模型,整合了視覺和語言模型,支持韓語和英語,適用於視覺與語言結合的任務。
下載量 208
發布時間 : 8/29/2024

模型概述

該模型通過整合'openai/clip-vit-large-patch14-336'視覺模型和'meta-llama/Meta-Llama-3.1-8B-Instruct'語言模型進行了精細調優,旨在各類任務中提供高質量結果。

模型特點

多模態能力
整合視覺和語言模型,能夠處理圖像和文本結合的複雜任務。
雙語支持
支持韓語和英語,滿足多語言環境的需求。
高性能調優
使用4塊H100 GPU進行了4小時的全面預訓練和11小時的微調,確保模型性能。

模型能力

圖像描述生成
視覺問答
多模態指令跟隨
圖像內容分析

使用案例

視覺內容理解
圖像描述生成
根據輸入的圖像生成詳細的文字描述。
能夠準確描述圖像中的物體、場景和動作。
視覺問答
回答關於圖像內容的特定問題。
能夠正確識別圖像中的物體並回答相關問題。
多模態交互
指令跟隨
根據圖像和文本指令執行復雜任務。
能夠理解並執行結合圖像和文本的複雜指令。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase