模型概述
模型特點
模型能力
使用案例
🚀 Gemma 2模型卡片
Gemma是谷歌推出的輕量級、最先進的開源模型家族,適用於多種文本生成任務,如問答、摘要和推理等。其相對較小的規模使其能在資源有限的環境中部署,讓更多人能接觸到先進的AI模型。
🚀 快速開始
要在Hugging Face上使用Gemma,你需要查看並同意Google的使用許可。請確保你已登錄Hugging Face,然後點擊下方按鈕,請求將立即處理。 確認許可
安裝依賴庫
首先,使用以下命令安裝Transformers庫:
pip install -U transformers
運行示例代碼
使用pipeline
API運行
import torch
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="google/gemma-2-27b-it",
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda", # 若在Mac設備上運行,將其替換為 "mps"
)
messages = [
{"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(messages, max_new_tokens=256)
assistant_response = outputs[0]["generated_text"][-1]["content"].strip()
print(assistant_response)
# Ahoy, matey! I be Gemma, a digital scallywag, a language-slingin' parrot of the digital seas. I be here to help ye with yer wordy woes, answer yer questions, and spin ye yarns of the digital world. So, what be yer pleasure, eh? 🦜
在單GPU或多GPU上運行模型
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-27b-it",
device_map="auto",
torch_dtype=torch.bfloat16,
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
你可以使用tokenizer.apply_chat_template
來確保應用正確的聊天模板,示例如下:
messages = [
{"role": "user", "content": "Write me a poem about Machine Learning."},
]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt", return_dict=True).to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=256)
print(tokenizer.decode(outputs[0]))
使用不同精度在GPU上運行模型
此模型的原生權重以bfloat16
精度導出。如果你不指定數據類型,也可以使用float32
,但不會提高精度(模型權重只會被轉換為float32
)。示例如下:
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-27b-it",
device_map="auto",
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
通過CLI運行模型
local-gemma倉庫包含一個圍繞Transformers的輕量級包裝器,用於通過命令行界面(CLI)運行Gemma 2。按照安裝說明開始使用,然後通過以下命令啟動CLI:
local-gemma --model 27b --preset speed
通過bitsandbytes
使用量化版本
使用8位精度(int8)
# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-27b-it",
quantization_config=quantization_config,
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
使用4位精度
# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_4bit=True)
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-27b-it",
quantization_config=quantization_config,
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
高級用法
Torch編譯
Torch編譯是一種加速PyTorch模塊推理的方法。通過利用Torch編譯,Gemma - 2模型的運行速度最多可提高6倍。
請注意,在實現完整的推理速度之前,需要進行兩個預熱步驟:
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
from transformers import AutoTokenizer, Gemma2ForCausalLM
from transformers.cache_utils import HybridCache
import torch
torch.set_float32_matmul_precision("high")
# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = Gemma2ForCausalLM.from_pretrained("google/gemma-2-27b-it", torch_dtype=torch.bfloat16)
model.to("cuda")
# 應用Torch編譯轉換
model.forward = torch.compile(model.forward, mode="reduce-overhead", fullgraph=True)
# 預處理輸入
input_text = "The theory of special relativity states "
model_inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
prompt_length = model_inputs.input_ids.shape[1]
# 設置鍵值緩存
past_key_values = HybridCache(
config=model.config,
max_batch_size=1,
max_cache_len=model.config.max_position_embeddings,
device=model.device,
dtype=model.dtype
)
# 啟用將鍵值緩存傳遞給生成過程
model._supports_cache_class = True
model.generation_config.cache_implementation = None
# 兩個預熱步驟
for idx in range(2):
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
past_key_values.reset()
# 快速運行
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
更多詳細信息,請參考Transformers文檔。
聊天模板
經過指令微調的模型使用一種聊天模板,在進行對話時必須遵循該模板。最簡單的應用方法是使用分詞器的內置聊天模板,如下所示:
from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch
model_id = "google/gemma-2-27b-it"
dtype = torch.bfloat16
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="cuda",
torch_dtype=dtype,
)
chat = [
{ "role": "user", "content": "Write a hello world program" },
]
prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
此時,提示包含以下文本:
<bos><start_of_turn>user
Write a hello world program<end_of_turn>
<start_of_turn>model
可以看到,每個回合都以<start_of_turn>
分隔符開頭,然後是實體的角色(user
表示用戶提供的內容,model
表示大語言模型的響應)。回合以<end_of_turn>
標記結束。
如果需要在不使用分詞器聊天模板的情況下手動構建提示,可以遵循此格式。
提示準備好後,可以按以下方式進行生成:
inputs = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
outputs = model.generate(input_ids=inputs.to(model.device), max_new_tokens=150)
print(tokenizer.decode(outputs[0]))
輸入和輸出
屬性 | 詳情 |
---|---|
輸入 | 文本字符串,例如問題、提示或待總結的文檔。 |
輸出 | 針對輸入生成的英文文本,例如問題的答案或文檔的摘要。 |
引用
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
✨ 主要特性
- 輕量級架構:Gemma是輕量級的開源模型家族,資源需求相對較低,可在筆記本電腦、臺式機或自有云基礎設施等資源有限的環境中部署。
- 多任務處理能力:適用於多種文本生成任務,如問答、摘要和推理等。
- 開放權重:預訓練和指令微調變體的權重均開放,方便研究和開發。
📦 安裝指南
安裝Transformers庫:
pip install -U transformers
💻 使用示例
基礎用法
import torch
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="google/gemma-2-27b-it",
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda", # 若在Mac設備上運行,將其替換為 "mps"
)
messages = [
{"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(messages, max_new_tokens=256)
assistant_response = outputs[0]["generated_text"][-1]["content"].strip()
print(assistant_response)
高級用法
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
from transformers import AutoTokenizer, Gemma2ForCausalLM
from transformers.cache_utils import HybridCache
import torch
torch.set_float32_matmul_precision("high")
# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = Gemma2ForCausalLM.from_pretrained("google/gemma-2-27b-it", torch_dtype=torch.bfloat16)
model.to("cuda")
# 應用Torch編譯轉換
model.forward = torch.compile(model.forward, mode="reduce-overhead", fullgraph=True)
# 預處理輸入
input_text = "The theory of special relativity states "
model_inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
prompt_length = model_inputs.input_ids.shape[1]
# 設置鍵值緩存
past_key_values = HybridCache(
config=model.config,
max_batch_size=1,
max_cache_len=model.config.max_position_embeddings,
device=model.device,
dtype=model.dtype
)
# 啟用將鍵值緩存傳遞給生成過程
model._supports_cache_class = True
model.generation_config.cache_implementation = None
# 兩個預熱步驟
for idx in range(2):
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
past_key_values.reset()
# 快速運行
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 詳細文檔
🔧 技術細節
訓練數據
這些模型在包含多種來源的文本數據集上進行訓練。27B模型使用13萬億個標記進行訓練,9B模型使用8萬億個標記進行訓練。主要數據來源包括:
- 網頁文檔:多樣化的網頁文本集合,確保模型接觸到廣泛的語言風格、主題和詞彙,主要為英文內容。
- 代碼:讓模型接觸代碼有助於學習編程語言的語法和模式,提高生成代碼或理解代碼相關問題的能力。
- 數學:在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和處理數學查詢。
數據預處理
對訓練數據應用了以下關鍵的數據清理和過濾方法:
- CSAM過濾:在數據準備過程的多個階段應用了嚴格的CSAM(兒童性虐待材料)過濾,以確保排除有害和非法內容。
- 敏感數據過濾:為了使Gemma預訓練模型安全可靠,使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
- 其他方法:根據內容質量和安全性進行過濾,符合我們的政策。
硬件
Gemma使用最新一代的張量處理單元(TPU)硬件(TPUv5p)進行訓練。TPU專為機器學習中常見的矩陣運算而設計,在訓練大語言模型方面具有以下優勢:
- 性能:能夠處理訓練大語言模型所需的大量計算,與CPU相比,可顯著加速訓練過程。
- 內存:通常配備大量高帶寬內存,可處理大型模型和批量大小,有助於提高模型質量。
- 可擴展性:TPU Pods(大型TPU集群)為處理大型基礎模型的不斷增長的複雜性提供了可擴展的解決方案,可跨多個TPU設備分佈訓練,實現更快、更高效的處理。
- 成本效益:在許多情況下,與基於CPU的基礎設施相比,TPU可以為訓練大型模型提供更具成本效益的解決方案,尤其是考慮到更快的訓練速度節省的時間和資源。
軟件
使用JAX和ML Pathways進行訓練。JAX使研究人員能夠利用最新一代的硬件(包括TPU)更快、更高效地訓練大型模型。ML Pathways是Google構建能夠跨多個任務進行泛化的人工智能系統的最新成果,特別適用於基礎模型,包括像Gemma這樣的大語言模型。
📄 許可證
本模型使用Gemma許可證。
模型評估
基準測試結果
這些模型在大量不同的數據集和指標上進行了評估,以涵蓋文本生成的不同方面:
基準測試 | 指標 | Gemma PT 9B | Gemma PT 27B |
---|---|---|---|
MMLU | 5-shot, top-1 | 71.3 | 75.2 |
HellaSwag | 10-shot | 81.9 | 86.4 |
PIQA | 0-shot | 81.7 | 83.2 |
SocialIQA | 0-shot | 53.4 | 53.7 |
BoolQ | 0-shot | 84.2 | 84.8 |
WinoGrande | partial score | 80.6 | 83.7 |
ARC-e | 0-shot | 88.0 | 88.6 |
ARC-c | 25-shot | 68.4 | 71.4 |
TriviaQA | 5-shot | 76.6 | 83.7 |
Natural Questions | 5-shot | 29.2 | 34.5 |
HumanEval | pass@1 | 40.2 | 51.8 |
MBPP | 3-shot | 52.4 | 62.6 |
GSM8K | 5-shot, maj@1 | 68.6 | 74.0 |
MATH | 4-shot | 36.6 | 42.3 |
AGIEval | 3 - 5-shot | 52.8 | 55.1 |
BIG - Bench | 3-shot, CoT | 68.2 | 74.9 |
倫理和安全評估
評估方法
評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行,每個團隊有不同的目標和人工評估指標。這些模型在與倫理和安全相關的多個類別上進行了評估,包括:
- 文本到文本內容安全:對涵蓋安全政策(包括兒童性虐待和剝削、騷擾、暴力和血腥以及仇恨言論)的提示進行人工評估。
- 文本到文本代表性危害:與相關學術數據集(如WinoBias和BBQ數據集)進行基準對比。
- 記憶:對訓練數據的記憶進行自動化評估,包括個人可識別信息暴露的風險。
- 大規模危害:測試“危險能力”,如化學、生物、放射性和核(CBRN)風險。
評估結果
倫理和安全評估的結果在滿足內部政策的可接受閾值範圍內,涵蓋兒童安全、內容安全、代表性危害、記憶、大規模危害等類別。除了強大的內部評估外,還展示了一些知名安全基準測試(如BBQ、BOLD、Winogender、Winobias、RealToxicity和TruthfulQA)的結果。
基準測試 | 指標 | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|
RealToxicity | average | 8.25 | 8.84 |
CrowS - Pairs | top - 1 | 37.47 | 36.67 |
BBQ Ambig | 1 - shot, top - 1 | 88.58 | 85.99 |
BBQ Disambig | top - 1 | 82.67 | 86.94 |
Winogender | top - 1 | 79.17 | 77.22 |
TruthfulQA | 50.27 | 51.60 | |
Winobias 1_2 | 78.09 | 81.94 | |
Winobias 2_2 | 95.32 | 97.22 | |
Toxigen | 39.30 | 38.42 |
使用和限制
預期用途
開源大語言模型(LLMs)在各個行業和領域有廣泛的應用。以下是可能的使用場景列表,但並不全面,旨在提供模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。
- 內容創作和通信:
- 文本生成:可用於生成創意文本格式,如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式AI:為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要:生成文本語料庫、研究論文或報告的簡潔摘要。
- 研究和教育:
- 自然語言處理(NLP)研究:為研究人員提供基礎,用於實驗NLP技術、開發算法和推動該領域的發展。
- 語言學習工具:支持交互式語言學習體驗,輔助語法糾正或提供寫作練習。
- 知識探索:幫助研究人員探索大量文本,生成摘要或回答特定主題的問題。
限制
- 訓練數據:訓練數據的質量和多樣性會顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性,訓練數據集的範圍決定了模型能夠有效處理的主題領域。
- 上下文和任務複雜性:大語言模型更擅長有明確提示和指令的任務,開放式或高度複雜的任務可能具有挑戰性。模型的性能可能受到提供的上下文量的影響(在一定程度上,更長的上下文通常會導致更好的輸出)。
- 語言歧義與細微差別:自然語言本質上很複雜,大語言模型可能難以理解微妙的細微差別、諷刺或比喻語言。
- 事實準確性:大語言模型根據從訓練數據集中學到的信息生成響應,但它們不是知識庫,可能會生成不正確或過時的事實陳述。
- 常識:大語言模型依賴於語言中的統計模式,在某些情況下可能缺乏應用常識推理的能力。
倫理考慮和風險
大語言模型(LLMs)的開發引發了一些倫理問題。在創建開源模型時,我們仔細考慮了以下方面:
- 偏差和公平性:在大規模真實世界文本數據上訓練的大語言模型可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查,本卡片中描述了輸入數據的預處理和後續評估情況。
- 錯誤信息和濫用:大語言模型可能被濫用來生成虛假、誤導或有害的文本。提供了負責任使用模型的指南,請參閱負責任的生成式AI工具包。
- 透明度和問責制:本模型卡片總結了模型的架構、能力、限制和評估過程的詳細信息。負責任開發的開源模型為AI生態系統中的開發者和研究人員提供了共享創新的機會,使大語言模型技術更易於獲取。
已識別的風險和緩解措施
- 偏差的延續:鼓勵在模型訓練、微調等用例中進行持續監測(使用評估指標、人工審查)並探索去偏差技術。
- 有害內容的生成:內容安全機制和指南至關重要。鼓勵開發者根據其特定的產品政策和應用用例謹慎行事,並實施適當的內容安全保障措施。
- 惡意用途:技術限制以及對開發者和最終用戶的教育有助於減輕大語言模型的惡意應用。提供了教育資源和用戶舉報濫用行為的機制。Gemma模型的禁止使用情況在Gemma禁止使用政策中列出。
- 隱私侵犯:模型在經過過濾以去除個人可識別信息(PII)的數據上進行訓練。鼓勵開發者遵守隱私法規,採用保護隱私的技術。
優勢
與同等規模的模型相比,在發佈時,這個模型家族提供了高性能的開源大語言模型實現,從底層設計就考慮了負責任的AI開發。使用本文檔中描述的基準評估指標,這些模型表現出優於其他同等規模開源模型的性能。



