🚀 gghfez/amoral-gemma3-12B-vision
本项目是在soob3123/amoral-gemma3-12B的基础上重新连接了视觉编码器,可用于图像相关的推理任务。
🚀 快速开始
本项目基于transformers
库,使用soob3123/amoral-gemma3-12B
作为基础模型,许可证为gemma
。以下是相关信息表格:
属性 |
详情 |
基础模型 |
soob3123/amoral-gemma3-12B |
语言 |
en |
库名称 |
transformers |
许可证 |
gemma |
标签 |
transformers、gemma3、gemma、google |
💻 使用示例
基础用法
from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "gghfez/amoral-gemma3-12B-vision"
model = Gemma3ForConditionalGeneration.from_pretrained(
model_id, device_map="auto"
).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "Describe this image in detail."}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=500, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
输出示例
以下是对图像的详细描述:
整体印象:这张图片是一个生机勃勃的花园场景特写,聚焦于粉色的大波斯菊和一只忙碌的大黄蜂。画面构图平衡,花朵和蜜蜂作为主要元素,以绿色植物和其他花卉为背景。
花朵:画面主要聚焦于粉色的大波斯菊。它们有着精致且略带褶皱的粉色花瓣,花蕊呈明亮的黄色。有些花朵正盛开着,而有些则已过花期,花瓣干枯或枯萎。花朵簇拥在一起,营造出一种繁茂而自然的美感。
大黄蜂:一只大黄蜂醒目地停在一朵大波斯菊上。它位于画面中心,正积极地采集花蜜或花粉。这只蜜蜂有着毛茸茸的黑黄相间的身体,由于它在移动,翅膀显得有些模糊。
背景:背景是一片绿色的枝叶,包括大叶子和小植物。背景中还有一些干枯或褪色的花朵,为画面增添了质感和层次感。右下角可以看到几朵红色的花,为画面增添了一抹亮色。
光线与色彩:画面采光良好,自然光洒在场景上。色彩鲜艳饱满,尤其是大波斯菊的粉色和大黄蜂的黄色。整体效果给人一种温暖而充满活力的感觉。
我也用其他图像进行了测试,我很喜欢测试结果!它比google/gemma-3-12b-it的输出详细得多。