A

Amoral Gemma3 12B Vision

由gghfez開發
基於soob3123/amoral-gemma3-12B的視覺增強版本,結合了Gemma3-12B大語言模型與視覺編碼器,支持多模態任務
下載量 25
發布時間 : 3/21/2025

模型概述

這是一個多模態模型,能夠處理圖像和文本輸入,生成詳細的圖像描述或回答相關問題。相比基礎Gemma3-12B模型,在視覺理解方面表現更優

模型特點

多模態能力
同時處理圖像和文本輸入,實現跨模態理解
詳細圖像描述
相比基礎Gemma3-12B模型,能生成更豐富、更準確的圖像描述
高效推理
支持設備自動映射(device_map)和bfloat16精度,優化推理效率

模型能力

圖像理解
圖像描述生成
視覺問答
多模態對話

使用案例

內容分析
圖像描述生成
為上傳的圖片生成詳細文字描述
輸出包含物體、場景、顏色、光線等要素的豐富描述
輔助工具
視覺輔助
幫助視障人士理解圖像內容
提供準確、詳細的場景描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase