Gemma 3之Gemma-27B-chatml開源多模態模型 - 免費支持圖文輸入文本輸出

首頁

Gemma 27B Chatml

由NewEden開發

Gemma 3是Google推出的輕量級、最先進的開源多模態模型家族，基於創建Gemini模型的相同研究和技術構建，支持文本和圖像輸入並生成文本輸出。

圖像生成文本

Transformers

#多模態處理 #128K長上下文 #多語言支持

下載量 1,425

發布時間 : 4/16/2025

模型概述

Gemma 3是一個多模態模型，能夠處理文本和圖像輸入並生成文本輸出，適用於各種文本生成和圖像理解任務，包括問答、摘要和推理。

模型特點

多模態處理

支持同時處理文本和圖像輸入，生成文本輸出

大上下文窗口

擁有128K的大上下文窗口，適合處理長文本和複雜任務

多語言支持

支持超過140種語言，具有廣泛的語言覆蓋能力

輕量級設計

相對較小的模型尺寸，可在資源有限的環境中部署

模型能力

文本生成

圖像分析

多語言處理

代碼生成

數學推理

文檔摘要

視覺問答

使用案例

內容創作和通信

創意文本生成

生成詩歌、腳本、代碼、營銷文案和電子郵件草稿

聊天機器人和對話式AI

為客戶服務、虛擬助手或交互式應用程序提供對話界面

圖像數據提取

提取、解釋和總結視覺數據，用於文本通信

研究和教育

自然語言處理研究

作為研究人員試驗VLM和NLP技術的基礎

語言學習

幫助學習者提高語言技能，如語法、詞彙和閱讀理解

🚀 Gemma 3模型卡片

Gemma 3是Google推出的輕量級、最先進的開源模型家族，基於創建Gemini模型的相同研究和技術構建。該模型具有多模態處理能力，支持文本和圖像輸入並生成文本輸出，適用於多種文本生成和圖像理解任務。

🚀 快速開始

安裝

Gemma 3從transformers 4.50.0版本開始支持。首先，安裝Transformers庫：

$ pip install -U transformers

然後，根據你的用例複製相關代碼片段。

使用示例

基礎用法

使用pipeline API進行推理：

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3-27b-it",
    device="cuda",
    torch_dtype=torch.bfloat16
)

對於經過指令調整的模型，需要先使用聊天模板處理輸入，然後將其傳遞給管道：

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]

output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look! 
# Based on the image, the animal on the candy is a **turtle**. 
# You can see the shell shape and the head and legs.

高級用法

在單GPU或多GPU上運行模型：

# pip install accelerate

from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/gemma-3-27b-it"

model = Gemma3ForConditionalGeneration.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

# **Overall Impression:** The image is a close-up shot of a vibrant garden scene, 
# focusing on a cluster of pink cosmos flowers and a busy bumblebee. 
# It has a slightly soft, natural feel, likely captured in daylight.

✨ 主要特性

多模態處理：支持文本和圖像輸入，生成文本輸出。
大上下文窗口：擁有128K的大上下文窗口。
多語言支持：支持超過140種語言。
輕量級：相對較小的模型尺寸，可在資源有限的環境中部署。

📦 安裝指南

安裝Transformers庫：

$ pip install -U transformers

📚 詳細文檔

模型信息

描述

Gemma是Google推出的輕量級、最先進的開源模型家族，基於創建Gemini模型的相同研究和技術構建。Gemma 3模型是多模態的，能夠處理文本和圖像輸入並生成文本輸出，預訓練變體和指令調整變體的權重均開源。Gemma 3具有128K的大上下文窗口，支持超過140種語言，並且比以前的版本有更多的尺寸可供選擇。Gemma 3模型非常適合各種文本生成和圖像理解任務，包括問答、摘要和推理。其相對較小的尺寸使得它可以在筆記本電腦、臺式機或自己的雲基礎設施等資源有限的環境中部署，使更多人能夠使用最先進的AI模型，促進創新。

輸入和輸出

輸入：
- 文本字符串，如問題、提示或待摘要的文檔。
- 圖像，歸一化為896 x 896分辨率，每個圖像編碼為256個標記。
- 4B、12B和27B尺寸的總輸入上下文為128K個標記，1B尺寸的總輸入上下文為32K個標記。
輸出：
- 對輸入的生成文本響應，如問題的答案、圖像內容的分析或文檔的摘要。
- 總輸出上下文為8192個標記。

模型數據

訓練數據集

這些模型在包含多種來源的文本數據集上進行訓練。27B模型使用14萬億個標記進行訓練，12B模型使用12萬億個標記進行訓練，4B模型使用4萬億個標記進行訓練，1B模型使用2萬億個標記進行訓練。以下是關鍵組成部分：

網頁文檔：多樣化的網頁文本集合確保模型接觸到廣泛的語言風格、主題和詞彙。訓練數據集包含超過140種語言的內容。
代碼：讓模型接觸代碼有助於它學習編程語言的語法和模式，從而提高其生成代碼和理解與代碼相關問題的能力。
數學：在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和解決數學查詢。
圖像：廣泛的圖像使模型能夠執行圖像分析和視覺數據提取任務。

這些多樣化數據源的組合對於訓練一個強大的多模態模型至關重要，該模型能夠處理各種不同的任務和數據格式。

數據預處理

以下是應用於訓練數據的關鍵數據清理和過濾方法：

CSAM過濾：在數據準備過程的多個階段應用了嚴格的CSAM（兒童性虐待材料）過濾，以確保排除有害和非法內容。
敏感數據過濾：作為使Gemma預訓練模型安全可靠的一部分，使用自動化技術從訓練集中過濾出某些個人信息和其他敏感數據。
其他方法：根據內容質量和安全性進行過濾，符合我們的政策。

實現信息

硬件

Gemma使用張量處理單元（TPU）硬件（TPUv4p、TPUv5p和TPUv5e）進行訓練。訓練視覺語言模型（VLM）需要大量的計算能力。TPU專門為機器學習中常見的矩陣運算而設計，在這一領域具有以下優勢：

性能：TPU專門用於處理訓練VLM涉及的大量計算。與CPU相比，它可以顯著加快訓練速度。
內存：TPU通常配備大量的高帶寬內存，允許在訓練期間處理大型模型和批量大小。這可以提高模型質量。
可擴展性：TPU Pod（大型TPU集群）為處理大型基礎模型日益增長的複雜性提供了可擴展的解決方案。你可以在多個TPU設備上分佈訓練，以實現更快、更高效的處理。
成本效益：在許多情況下，與基於CPU的基礎設施相比，TPU可以為訓練大型模型提供更具成本效益的解決方案，特別是考慮到由於訓練速度加快而節省的時間和資源。
這些優勢符合Google對可持續運營的承諾。

軟件

訓練使用JAX和ML Pathways進行。

JAX允許研究人員利用最新一代的硬件（包括TPU）來更快、更高效地訓練大型模型。ML Pathways是Google最新的努力，旨在構建能夠跨多個任務進行泛化的人工智能系統。這特別適用於基礎模型，包括這樣的大型語言模型。

JAX和ML Pathways一起使用，如關於Gemini模型家族的論文中所述：“Jax和Pathways的‘單控制器’編程模型允許單個Python進程編排整個訓練過程，極大地簡化了開發工作流程。”

評估

基準測試結果

這些模型針對大量不同的數據集和指標進行了評估，以涵蓋文本生成的不同方面：

推理和事實性

基準測試	指標	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
HellaSwag	10-shot	62.3	77.2	84.2	85.6
BoolQ	0-shot	63.2	72.3	78.8	82.4
PIQA	0-shot	73.8	79.6	81.8	83.3
SocialIQA	0-shot	48.9	51.9	53.4	54.9
TriviaQA	5-shot	39.8	65.8	78.2	85.5
Natural Questions	5-shot	9.48	20.0	31.4	36.1
ARC-c	25-shot	38.4	56.2	68.9	70.6
ARC-e	0-shot	73.0	82.4	88.3	89.0
WinoGrande	5-shot	58.2	64.7	74.3	78.8
BIG-Bench Hard	few-shot	28.4	50.9	72.6	77.7
DROP	1-shot	42.4	60.1	72.2	77.2

STEM和代碼

基準測試	指標	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MMLU	5-shot	59.6	74.5	78.6
MMLU (Pro COT)	5-shot	29.2	45.3	52.2
AGIEval	3 - 5-shot	42.1	57.4	66.2
MATH	4-shot	24.2	43.3	50.0
GSM8K	8-shot	38.4	71.0	82.6
GPQA	5-shot	15.0	25.4	24.3
MBPP	3-shot	46.0	60.4	65.6
HumanEval	0-shot	36.0	45.7	48.8

多語言

基準測試	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MGSM	2.04	34.7	64.3	74.3
Global-MMLU-Lite	24.9	57.0	69.4	75.7
WMT24++ (ChrF)	36.7	48.4	53.9	55.7
FloRes	29.5	39.2	46.0	48.8
XQuAD (all)	43.9	68.0	74.5	76.8
ECLeKTic	4.69	11.0	17.2	24.4
IndicGenBench	41.4	57.2	61.7	63.4

多模態

基準測試	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72.8	82.3	85.6
InfoVQA (val)	44.1	54.8	59.4
MMMU (pt)	39.2	50.3	56.1
TextVQA (val)	58.9	66.5	68.6
RealWorldQA	45.5	52.2	53.9
ReMI	27.3	38.5	44.8
AI2D	63.2	75.2	79.0
ChartQA	63.6	74.7	76.3
VQAv2	63.9	71.2	72.9
BLINK	38.0	35.9	39.6
OKVQA	51.0	58.7	60.2
TallyQA	42.5	51.8	54.3
SpatialSense VQA	50.9	60.0	59.4
CountBenchQA	26.1	17.8	68.0

倫理與安全

評估方法

我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行，每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行了評估，包括：

兒童安全：評估文本到文本和圖像到文本的提示，涵蓋兒童安全政策，包括兒童性虐待和剝削。
內容安全：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括騷擾、暴力和血腥內容以及仇恨言論。
代表性危害：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括偏見、刻板印象以及有害關聯或不準確信息。

除了開發階段的評估，我們還進行“保證評估”，這是我們為責任治理決策進行的“獨立”內部評估。這些評估與模型開發團隊分開進行，以提供有關發佈的決策信息。高級別發現會反饋給模型團隊，但提示集不會公開，以防止過擬合併保持結果為決策提供信息的能力。保證評估結果作為發佈審查的一部分報告給我們的責任與安全委員會。

評估結果

在所有安全測試領域，與之前的Gemma模型相比，我們在兒童安全、內容安全和代表性危害類別中看到了重大改進。所有測試均在沒有安全過濾器的情況下進行，以評估模型的能力和行為。對於文本到文本和圖像到文本，以及所有模型尺寸，模型產生的政策違規最少，並且在無根據推斷方面比之前的Gemma模型表現出顯著改進。我們評估的一個侷限性是隻包括英語提示。

使用和限制

預期用途

開放視覺語言模型（VLM）在各個行業和領域有廣泛的應用。以下潛在用途列表並不全面。此列表的目的是提供有關模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。

內容創作和通信：
- 文本生成：這些模型可用於生成創意文本格式，如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式AI：為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要：生成文本語料庫、研究論文或報告的簡潔摘要。
- 圖像數據提取：這些模型可用於提取、解釋和總結視覺數據，用於文本通信。
研究和教育：
- 自然語言處理（NLP）和VLM研究：這些模型可以作為研究人員試驗VLM和NLP技術、開發算法併為該領域的發展做出貢獻的基礎。
- 語言學習：幫助學習者提高語言技能，如語法、詞彙和閱讀理解。

限制

用戶應該瞭解這些模型存在一定的侷限性。評估僅包括英語語言提示，可能在其他語言上的性能有所不同。

🔧 技術細節

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

📄 許可證

許可證為：gemma

模型頁面：Gemma

資源和技術文檔：

使用條款：條款

作者：Google DeepMind

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫