Amoral Gemma3 12B Vision
基於soob3123/amoral-gemma3-12B的視覺增強版本,結合了Gemma3-12B大語言模型與視覺編碼器,支持多模態任務
Downloads 25
Release Time : 3/21/2025
Model Overview
這是一個多模態模型,能夠處理圖像和文本輸入,生成詳細的圖像描述或回答相關問題。相比基礎Gemma3-12B模型,在視覺理解方面表現更優
Model Features
多模態能力
同時處理圖像和文本輸入,實現跨模態理解
詳細圖像描述
相比基礎Gemma3-12B模型,能生成更豐富、更準確的圖像描述
高效推理
支持設備自動映射(device_map)和bfloat16精度,優化推理效率
Model Capabilities
圖像理解
圖像描述生成
視覺問答
多模態對話
Use Cases
內容分析
圖像描述生成
為上傳的圖片生成詳細文字描述
輸出包含物體、場景、顏色、光線等要素的豐富描述
輔助工具
視覺輔助
幫助視障人士理解圖像內容
提供準確、詳細的場景描述
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 Chinese
R
uer
2,694
98