🚀 gghfez/amoral-gemma3-12B-vision
本項目是在soob3123/amoral-gemma3-12B的基礎上重新連接了視覺編碼器,可用於圖像相關的推理任務。
🚀 快速開始
本項目基於transformers
庫,使用soob3123/amoral-gemma3-12B
作為基礎模型,許可證為gemma
。以下是相關信息表格:
屬性 |
詳情 |
基礎模型 |
soob3123/amoral-gemma3-12B |
語言 |
en |
庫名稱 |
transformers |
許可證 |
gemma |
標籤 |
transformers、gemma3、gemma、google |
💻 使用示例
基礎用法
from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "gghfez/amoral-gemma3-12B-vision"
model = Gemma3ForConditionalGeneration.from_pretrained(
model_id, device_map="auto"
).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "Describe this image in detail."}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=500, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
輸出示例
以下是對圖像的詳細描述:
整體印象:這張圖片是一個生機勃勃的花園場景特寫,聚焦於粉色的大波斯菊和一隻忙碌的大黃蜂。畫面構圖平衡,花朵和蜜蜂作為主要元素,以綠色植物和其他花卉為背景。
花朵:畫面主要聚焦於粉色的大波斯菊。它們有著精緻且略帶褶皺的粉色花瓣,花蕊呈明亮的黃色。有些花朵正盛開著,而有些則已過花期,花瓣乾枯或枯萎。花朵簇擁在一起,營造出一種繁茂而自然的美感。
大黃蜂:一隻大黃蜂醒目地停在一朵大波斯菊上。它位於畫面中心,正積極地採集花蜜或花粉。這隻蜜蜂有著毛茸茸的黑黃相間的身體,由於它在移動,翅膀顯得有些模糊。
背景:背景是一片綠色的枝葉,包括大葉子和小植物。背景中還有一些乾枯或褪色的花朵,為畫面增添了質感和層次感。右下角可以看到幾朵紅色的花,為畫面增添了一抹亮色。
光線與色彩:畫面採光良好,自然光灑在場景上。色彩鮮豔飽滿,尤其是大波斯菊的粉色和大黃蜂的黃色。整體效果給人一種溫暖而充滿活力的感覺。
我也用其他圖像進行了測試,我很喜歡測試結果!它比google/gemma-3-12b-it的輸出詳細得多。