開源Gemma-2-9b-it模型 - 基於谷歌技術助力多類文本生成任務

首頁

Gemma 2 9b It

由google開發

Gemma是Google推出的輕量級開放大語言模型系列，基於創建Gemini模型的相同技術構建，適用於多種文本生成任務。

大型語言模型

Transformers

#輕量級大模型 #多輪對話優化 #低資源部署

下載量 336.05k

發布時間 : 6/24/2024

模型概述

Gemma是一系列輕量級、先進的開放模型，基於創建Gemini模型的相同研究和技術構建。它們是僅解碼器的文本到文本大語言模型，提供英語版本，適用於問答、摘要和推理等任務。

模型特點

輕量級設計

相對較小的體積使其可以在資源有限的環境中部署，如筆記本電腦、臺式機或自有云基礎設施。

多任務適用

適用於多種文本生成任務，包括問答、摘要和推理。

高性能推理

通過Torch編譯等技術可實現高達6倍的推理速度提升。

量化支持

支持8位和4位量化，可在資源受限的設備上運行。

模型能力

文本生成

問答系統

文本摘要

代碼生成

詩歌創作

使用案例

內容創作

詩歌生成

根據用戶提供的主題生成詩歌。

能夠生成符合主題的創意詩歌。

故事創作

根據提示生成連貫的故事內容。

生成具有邏輯性和創造性的故事。

編程輔助

代碼生成

根據自然語言描述生成代碼片段。

能夠生成可運行的簡單程序代碼。

教育

學習輔助

回答學生提出的各種學科問題。

提供準確且易於理解的解釋。

🚀 Gemma 2模型卡片

Gemma是谷歌推出的一系列輕量級、最先進的開放模型。它基於與Gemini模型相同的研究和技術構建，適用於多種文本生成任務，如問答、摘要和推理等。其相對較小的規模使其能夠在資源有限的環境中部署，讓更多人能夠使用到最先進的AI模型。

🚀 快速開始

要在Hugging Face上訪問Gemma，你需要查看並同意Google的使用許可。請確保你已登錄Hugging Face，然後點擊下方按鈕。請求將立即處理。確認許可

安裝依賴庫

首先，使用以下命令安裝Transformers庫：

pip install -U transformers

運行模型示例

使用`pipeline` API運行

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="google/gemma-2-9b-it",
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",  # 若在Mac設備上運行，可替換為 "mps"
)

messages = [
    {"role": "user", "content": "你是誰？請用海盜的口吻回答。"},
]

outputs = pipe(messages, max_new_tokens=256)
assistant_response = outputs[0]["generated_text"][-1]["content"].strip()
print(assistant_response)
# 啊哈，夥計！我乃Gemma，數字世界的無賴，語言海洋的鸚鵡。我在此為你排憂解難，回答你的問題，講述數字世界的故事。那麼，你有何需求，嗯？ 🦜

在單GPU或多GPU上運行模型

# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-9b-it",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

input_text = "為我寫一首關於機器學習的詩。"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

你可以使用tokenizer.apply_chat_template來確保應用正確的聊天模板，如下所示：

messages = [
    {"role": "user", "content": "為我寫一首關於機器學習的詩。"},
]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt", return_dict=True).to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=256)
print(tokenizer.decode(outputs[0]))

在GPU上使用不同精度運行模型

此模型的原生權重以bfloat16精度導出。如果你跳過指定數據類型，也可以使用float32，但不會提高精度（模型權重只會被轉換為float32）。以下是示例：

# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-9b-it",
    device_map="auto",
)

input_text = "為我寫一首關於機器學習的詩。"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

通過命令行界面（CLI）運行模型

local-gemma倉庫包含一個圍繞Transformers的輕量級包裝器，用於通過命令行界面運行Gemma 2。按照安裝說明開始使用，然後通過以下命令啟動CLI：

local-gemma --model 9b --preset speed

通過`bitsandbytes`使用量化版本

使用8位精度（int8）

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-9b-it",
    quantization_config=quantization_config,
)

input_text = "為我寫一首關於機器學習的詩。"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

使用4位精度

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(load_in_4bit=True)

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-9b-it",
    quantization_config=quantization_config,
)

input_text = "為我寫一首關於機器學習的詩。"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

高級用法

Torch編譯

Torch編譯是一種加速PyTorch模塊推理的方法。通過利用Torch編譯，Gemma-2模型的運行速度可以提高多達6倍。

請注意，在實現全推理速度之前，需要進行兩個預熱步驟：

import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

from transformers import AutoTokenizer, Gemma2ForCausalLM
from transformers.cache_utils import HybridCache
import torch

torch.set_float32_matmul_precision("high")

# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")
model = Gemma2ForCausalLM.from_pretrained("google/gemma-2-9b-it", torch_dtype=torch.bfloat16)
model.to("cuda")

# 應用Torch編譯轉換
model.forward = torch.compile(model.forward, mode="reduce-overhead", fullgraph=True)

# 預處理輸入
input_text = "狹義相對論指出 "
model_inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
prompt_length = model_inputs.input_ids.shape[1]

# 設置鍵值緩存
past_key_values = HybridCache(
    config=model.config,
    max_batch_size=1,
    max_cache_len=model.config.max_position_embeddings,
    device=model.device,
    dtype=model.dtype
)

# 啟用將鍵值緩存傳遞給生成過程
model._supports_cache_class = True
model.generation_config.cache_implementation = None

# 兩個預熱步驟
for idx in range(2):
    outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
    past_key_values.reset()

# 快速運行
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

更多詳細信息，請參考Transformers文檔。

聊天模板

經過指令微調的模型使用一種聊天模板，在進行對話時必須遵循該模板。應用它的最簡單方法是使用分詞器的內置聊天模板，如下所示。

讓我們加載模型並將聊天模板應用於對話。在這個例子中，我們將從單個用戶交互開始：

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model_id = "google/gemma-2-9b-it"
dtype = torch.bfloat16

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="cuda",
    torch_dtype=dtype,)

chat = [
    { "role": "user", "content": "編寫一個Hello World程序" },
]
prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

此時，提示包含以下文本：

<bos><start_of_turn>user
編寫一個Hello World程序<end_of_turn>
<start_of_turn>model

如你所見，每個回合前面都有一個<start_of_turn>分隔符，然後是實體的角色（user表示用戶提供的內容，model表示大語言模型的響應）。回合以<end_of_turn>標記結束。

如果你需要在不使用分詞器的聊天模板的情況下手動構建提示，可以遵循此格式。

提示準備好後，可以按如下方式進行生成：

inputs = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
outputs = model.generate(input_ids=inputs.to(model.device), max_new_tokens=150)
print(tokenizer.decode(outputs[0]))

輸入和輸出

輸入：文本字符串，例如問題、提示或要總結的文檔。
輸出：針對輸入生成的英文文本，例如問題的答案或文檔的摘要。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

✨ 主要特性

輕量級與高性能：Gemma是一系列輕量級的開放模型，具備先進的性能，能夠在資源有限的環境中高效運行。
多任務處理能力：適用於多種文本生成任務，包括問答、摘要和推理等。
開放權重：提供預訓練和指令微調變體的開放權重，方便開發者進行定製和擴展。
支持多種運行方式：可以通過pipeline API、單GPU或多GPU、命令行界面等多種方式運行。
量化支持：支持通過bitsandbytes進行8位和4位量化，進一步減少內存佔用。
高級優化：支持Torch編譯，可顯著提高推理速度。

📦 安裝指南

使用以下命令安裝Transformers庫：

pip install -U transformers

💻 使用示例

基礎用法

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="google/gemma-2-9b-it",
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",  # 若在Mac設備上運行，可替換為 "mps"
)

messages = [
    {"role": "user", "content": "你是誰？請用海盜的口吻回答。"},
]

outputs = pipe(messages, max_new_tokens=256)
assistant_response = outputs[0]["generated_text"][-1]["content"].strip()
print(assistant_response)
# 啊哈，夥計！我乃Gemma，數字世界的無賴，語言海洋的鸚鵡。我在此為你排憂解難，回答你的問題，講述數字世界的故事。那麼，你有何需求，嗯？ 🦜

高級用法

# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-9b-it",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

input_text = "為我寫一首關於機器學習的詩。"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

📚 詳細文檔

模型信息

描述

Gemma是谷歌推出的一系列輕量級、最先進的開放模型，基於與Gemini模型相同的研究和技術構建。它們是文本到文本、僅解碼器的大語言模型，支持英文，提供預訓練和指令微調變體的開放權重。Gemma模型適用於多種文本生成任務，包括問答、摘要和推理等。其相對較小的規模使其能夠在資源有限的環境中部署，如筆記本電腦、臺式機或你自己的雲基礎設施，讓更多人能夠使用到最先進的AI模型，促進創新。

模型數據

訓練數據集

這些模型在包含多種來源的文本數據集上進行訓練。27B模型使用13萬億個標記進行訓練，9B模型使用8萬億個標記進行訓練。主要組成部分包括：

網絡文檔：多樣化的網絡文本集合確保模型接觸到廣泛的語言風格、主題和詞彙。主要是英文內容。
代碼：讓模型接觸代碼有助於學習編程語言的語法和模式，提高生成代碼或理解與代碼相關問題的能力。
數學：在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和解決數學查詢。

這些多樣化數據源的組合對於訓練一個強大的語言模型至關重要，使其能夠處理各種不同的任務和文本格式。

數據預處理

對訓練數據應用了以下關鍵的數據清理和過濾方法：

CSAM過濾：在數據準備過程的多個階段應用了嚴格的CSAM（兒童性虐待材料）過濾，以確保排除有害和非法內容。
敏感數據過濾：為了使Gemma預訓練模型安全可靠，使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
其他方法：根據內容質量和安全性進行過濾，符合我們的政策。

實現信息

硬件

Gemma使用最新一代的張量處理單元（TPU）硬件（TPUv5p）進行訓練。

訓練大語言模型需要大量的計算能力。TPU專門為機器學習中常見的矩陣運算而設計，在這個領域具有以下優勢：

性能：TPU專門用於處理訓練大語言模型所需的大量計算。與CPU相比，它們可以顯著加快訓練速度。
內存：TPU通常配備大量的高帶寬內存，允許在訓練過程中處理大型模型和批量大小。這有助於提高模型質量。
可擴展性：TPU Pod（大型TPU集群）為處理大型基礎模型不斷增長的複雜性提供了可擴展的解決方案。你可以在多個TPU設備上分佈訓練，以實現更快、更高效的處理。
成本效益：在許多情況下，與基於CPU的基礎設施相比，TPU可以為訓練大型模型提供更具成本效益的解決方案，特別是考慮到由於更快的訓練速度而節省的時間和資源。
這些優勢與谷歌的可持續運營承諾相一致。

軟件

使用JAX和ML Pathways進行訓練。

JAX允許研究人員利用最新一代的硬件（包括TPU），以更快、更高效地訓練大型模型。

ML Pathways是谷歌構建能夠跨多個任務進行泛化的人工智能系統的最新努力。這特別適用於基礎模型，包括像這樣的大語言模型。

JAX和ML Pathways一起使用，如關於Gemini系列模型的論文中所述：“Jax和Pathways的‘單控制器’編程模型允許單個Python進程編排整個訓練過程，大大簡化了開發工作流程。”

評估

基準測試結果

這些模型在大量不同的數據集和指標上進行評估，以涵蓋文本生成的各個方面：

基準測試	指標	Gemma PT 9B	Gemma PT 27B
MMLU	5-shot, top-1	71.3	75.2
HellaSwag	10-shot	81.9	86.4
PIQA	0-shot	81.7	83.2
SocialIQA	0-shot	53.4	53.7
BoolQ	0-shot	84.2	84.8
WinoGrande	partial score	80.6	83.7
ARC-e	0-shot	88.0	88.6
ARC-c	25-shot	68.4	71.4
TriviaQA	5-shot	76.6	83.7
Natural Questions	5-shot	29.2	34.5
HumanEval	pass@1	40.2	51.8
MBPP	3-shot	52.4	62.6
GSM8K	5-shot, maj@1	68.6	74.0
MATH	4-shot	36.6	42.3
AGIEval	3 - 5-shot	52.8	55.1
BIG-Bench	3-shot, CoT	68.2	74.9

倫理與安全

評估方法

我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行，每個團隊有不同的目標和人類評估指標。這些模型在與倫理和安全相關的多個不同類別上進行評估，包括：

文本到文本內容安全：對涵蓋安全政策的提示進行人類評估，包括兒童性虐待和剝削、騷擾、暴力和血腥以及仇恨言論。
文本到文本代表性傷害：與相關學術數據集（如WinoBias和BBQ數據集）進行基準測試。
記憶：對訓練數據的記憶進行自動化評估，包括個人可識別信息暴露的風險。
大規模傷害：測試“危險能力”，如化學、生物、放射性和核（CBRN）風險。

評估結果

倫理和安全評估的結果在可接受的閾值範圍內，符合內部政策中關於兒童安全、內容安全、代表性傷害、記憶、大規模傷害等類別。除了強大的內部評估外，還展示了知名安全基準測試（如BBQ、BOLD、Winogender、Winobias、RealToxicity和TruthfulQA）的結果。

Gemma 2.0

基準測試	指標	Gemma 2 IT 9B	Gemma 2 IT 27B
RealToxicity	average	8.25	8.84
CrowS-Pairs	top-1	37.47	36.67
BBQ Ambig	1-shot, top-1	88.58	85.99
BBQ Disambig	top-1	82.67	86.94
Winogender	top-1	79.17	77.22
TruthfulQA		50.27	51.60
Winobias 1_2		78.09	81.94
Winobias 2_2		95.32	97.22
Toxigen		39.30	38.42

使用和限制

預期用途

開放大語言模型（LLM）在各個行業和領域有廣泛的應用。以下潛在用途列表並不全面。該列表的目的是提供有關模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。

內容創作和通信
- 文本生成：這些模型可用於生成創意文本格式，如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式AI：為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要：生成文本語料庫、研究論文或報告的簡潔摘要。
研究和教育
- 自然語言處理（NLP）研究：這些模型可作為研究人員試驗NLP技術、開發算法和推動該領域發展的基礎。
- 語言學習工具：支持交互式語言學習體驗，幫助進行語法糾正或提供寫作練習。
- 知識探索：通過生成摘要或回答關於特定主題的問題，幫助研究人員探索大量文本。

侷限性

訓練數據
- 訓練數據的質量和多樣性顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。
- 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
上下文和任務複雜性
- 大語言模型更擅長可以用明確提示和指令描述的任務。開放式或高度複雜的任務可能具有挑戰性。
- 模型的性能可能受到提供的上下文量的影響（在一定程度上，更長的上下文通常會導致更好的輸出）。
語言歧義與細微差別
- 自然語言本質上是複雜的。大語言模型可能難以理解微妙的細微差別、諷刺或比喻語言。
事實準確性
- 大語言模型根據從訓練數據集中學到的信息生成響應，但它們不是知識庫。它們可能生成不正確或過時的事實陳述。
常識
- 大語言模型依賴於語言中的統計模式。它們可能在某些情況下缺乏應用常識推理的能力。

倫理考慮和風險

大語言模型（LLM）的開發引發了一些倫理問題。在創建開放模型時，我們仔細考慮了以下方面：

偏差和公平性
- 在大規模、真實世界文本數據上訓練的大語言模型可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查，本卡片中描述了輸入數據的預處理和後續評估。
錯誤信息和濫用
- 大語言模型可能被濫用來生成虛假、誤導或有害的文本。
- 提供了負責任使用模型的指南，請參閱負責任的生成式AI工具包。
透明度和問責制
- 本模型卡片總結了模型的架構、能力、侷限性和評估過程的詳細信息。
- 一個負責任開發的開放模型為AI生態系統中的開發者和研究人員提供了分享創新和使用大語言模型技術的機會。

已識別的風險和緩解措施

偏差的延續：鼓勵在模型訓練、微調等用例中進行持續監控（使用評估指標、人工審查）並探索去偏差技術。
有害內容的生成：內容安全的機制和指南至關重要。鼓勵開發者謹慎行事，並根據其特定的產品政策和應用用例實施適當的內容安全保障措施。
惡意用途：技術限制以及對開發者和最終用戶的教育有助於減輕大語言模型的惡意應用。提供教育資源和用戶舉報濫用行為的機制。Gemma模型的禁止使用情況在Gemma禁止使用政策中列出。
隱私侵犯：模型在經過過濾以去除個人可識別信息（PII）的數據上進行訓練。鼓勵開發者遵守隱私法規並使用隱私保護技術。