Gemma-2-27b-it開源輕量級大語言模型 - 免費支持多種文本生成任務

首頁

Gemma 2 27b It

由google開發

Gemma是Google推出的輕量級開源大語言模型系列，基於創建Gemini模型的相同技術構建，適用於多種文本生成任務。

大型語言模型

Transformers

#輕量級LLM #多任務文本生成 #低資源部署

下載量 160.10k

發布時間 : 6/24/2024

模型概述

Gemma是僅解碼器的文本到文本大語言模型，提供英語版本，適用於問答、摘要和推理等任務。其輕量級設計使得可以在資源有限的環境中部署。

模型特點

輕量級設計

相對較小的體積使其可以在筆記本電腦、臺式機或雲基礎設施上部署，降低了使用門檻。

多任務適用

適用於問答、摘要、推理等多種文本生成任務，具有廣泛的應用場景。

高性能推理

支持多種精度運行和量化技術，包括8位和4位量化，優化推理性能。

安全過濾

訓練數據經過嚴格的CSAM和敏感數據過濾，確保模型輸出的安全性。

模型能力

文本生成

問答系統

文本摘要

代碼生成

邏輯推理

使用案例

內容創作

詩歌創作

根據用戶提供的主題生成詩歌

生成符合主題的創意詩歌文本

故事寫作

根據提示生成連貫的故事

生成具有邏輯性和創造性的故事內容

技術支持

代碼生成

根據自然語言描述生成代碼

生成可運行的代碼片段

技術問答

回答編程和技術相關問題

提供準確的技術解答

教育輔助

數學問題解答

解決數學問題和解釋數學概念

提供正確的數學解答和詳細解釋

🚀 Gemma 2模型卡片

Gemma是谷歌推出的輕量級、最先進的開源模型家族，適用於多種文本生成任務，如問答、摘要和推理等。其相對較小的規模使其能在資源有限的環境中部署，讓更多人能接觸到先進的AI模型。

🚀 快速開始

要在Hugging Face上使用Gemma，你需要查看並同意Google的使用許可。請確保你已登錄Hugging Face，然後點擊下方按鈕，請求將立即處理。確認許可

安裝依賴庫

首先，使用以下命令安裝Transformers庫：

pip install -U transformers

運行示例代碼

使用`pipeline` API運行

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="google/gemma-2-27b-it",
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",  # 若在Mac設備上運行，將其替換為 "mps"
)

messages = [
    {"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]

outputs = pipe(messages, max_new_tokens=256)
assistant_response = outputs[0]["generated_text"][-1]["content"].strip()
print(assistant_response)
# Ahoy, matey! I be Gemma, a digital scallywag, a language-slingin' parrot of the digital seas. I be here to help ye with yer wordy woes, answer yer questions, and spin ye yarns of the digital world.  So, what be yer pleasure, eh? 🦜

在單GPU或多GPU上運行模型

# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-27b-it",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

你可以使用tokenizer.apply_chat_template來確保應用正確的聊天模板，示例如下：

messages = [
    {"role": "user", "content": "Write me a poem about Machine Learning."},
]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt", return_dict=True).to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=256)
print(tokenizer.decode(outputs[0]))

使用不同精度在GPU上運行模型

此模型的原生權重以bfloat16精度導出。如果你不指定數據類型，也可以使用float32，但不會提高精度（模型權重只會被轉換為float32）。示例如下：

# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-27b-it",
    device_map="auto",
)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

通過CLI運行模型

local-gemma倉庫包含一個圍繞Transformers的輕量級包裝器，用於通過命令行界面（CLI）運行Gemma 2。按照安裝說明開始使用，然後通過以下命令啟動CLI：

local-gemma --model 27b --preset speed

通過`bitsandbytes`使用量化版本

使用8位精度（int8）

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-27b-it",
    quantization_config=quantization_config,
)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

使用4位精度

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(load_in_4bit=True)

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-27b-it",
    quantization_config=quantization_config,
)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

高級用法

Torch編譯

Torch編譯是一種加速PyTorch模塊推理的方法。通過利用Torch編譯，Gemma - 2模型的運行速度最多可提高6倍。

請注意，在實現完整的推理速度之前，需要進行兩個預熱步驟：

import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

from transformers import AutoTokenizer, Gemma2ForCausalLM
from transformers.cache_utils import HybridCache
import torch

torch.set_float32_matmul_precision("high")

# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = Gemma2ForCausalLM.from_pretrained("google/gemma-2-27b-it", torch_dtype=torch.bfloat16)
model.to("cuda")

# 應用Torch編譯轉換
model.forward = torch.compile(model.forward, mode="reduce-overhead", fullgraph=True)

# 預處理輸入
input_text = "The theory of special relativity states "
model_inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
prompt_length = model_inputs.input_ids.shape[1]

# 設置鍵值緩存
past_key_values = HybridCache(
    config=model.config,
    max_batch_size=1,
    max_cache_len=model.config.max_position_embeddings,
    device=model.device,
    dtype=model.dtype
)

# 啟用將鍵值緩存傳遞給生成過程
model._supports_cache_class = True
model.generation_config.cache_implementation = None

# 兩個預熱步驟
for idx in range(2):
    outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
    past_key_values.reset()

# 快速運行
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

更多詳細信息，請參考Transformers文檔。

聊天模板

經過指令微調的模型使用一種聊天模板，在進行對話時必須遵循該模板。最簡單的應用方法是使用分詞器的內置聊天模板，如下所示：

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model_id = "google/gemma-2-27b-it"
dtype = torch.bfloat16

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="cuda",
    torch_dtype=dtype,
)

chat = [
    { "role": "user", "content": "Write a hello world program" },
]
prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

此時，提示包含以下文本：

<bos><start_of_turn>user
Write a hello world program<end_of_turn>
<start_of_turn>model

可以看到，每個回合都以<start_of_turn>分隔符開頭，然後是實體的角色（user表示用戶提供的內容，model表示大語言模型的響應）。回合以<end_of_turn>標記結束。

如果需要在不使用分詞器聊天模板的情況下手動構建提示，可以遵循此格式。

提示準備好後，可以按以下方式進行生成：

inputs = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
outputs = model.generate(input_ids=inputs.to(model.device), max_new_tokens=150)
print(tokenizer.decode(outputs[0]))

輸入和輸出

屬性	詳情
輸入	文本字符串，例如問題、提示或待總結的文檔。
輸出	針對輸入生成的英文文本，例如問題的答案或文檔的摘要。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

✨ 主要特性

輕量級架構：Gemma是輕量級的開源模型家族，資源需求相對較低，可在筆記本電腦、臺式機或自有云基礎設施等資源有限的環境中部署。
多任務處理能力：適用於多種文本生成任務，如問答、摘要和推理等。
開放權重：預訓練和指令微調變體的權重均開放，方便研究和開發。

📦 安裝指南

安裝Transformers庫：

pip install -U transformers

💻 使用示例

基礎用法

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="google/gemma-2-27b-it",
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",  # 若在Mac設備上運行，將其替換為 "mps"
)

messages = [
    {"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]

outputs = pipe(messages, max_new_tokens=256)
assistant_response = outputs[0]["generated_text"][-1]["content"].strip()
print(assistant_response)

高級用法

import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

from transformers import AutoTokenizer, Gemma2ForCausalLM
from transformers.cache_utils import HybridCache
import torch

torch.set_float32_matmul_precision("high")

# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-27b-it")
model = Gemma2ForCausalLM.from_pretrained("google/gemma-2-27b-it", torch_dtype=torch.bfloat16)
model.to("cuda")

# 應用Torch編譯轉換
model.forward = torch.compile(model.forward, mode="reduce-overhead", fullgraph=True)

# 預處理輸入
input_text = "The theory of special relativity states "
model_inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
prompt_length = model_inputs.input_ids.shape[1]

# 設置鍵值緩存
past_key_values = HybridCache(
    config=model.config,
    max_batch_size=1,
    max_cache_len=model.config.max_position_embeddings,
    device=model.device,
    dtype=model.dtype
)

# 啟用將鍵值緩存傳遞給生成過程
model._supports_cache_class = True
model.generation_config.cache_implementation = None

# 兩個預熱步驟
for idx in range(2):
    outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
    past_key_values.reset()

# 快速運行
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📚 詳細文檔

模型頁面：Gemma
資源和技術文檔：
使用條款：條款
作者：Google

🔧 技術細節

訓練數據

這些模型在包含多種來源的文本數據集上進行訓練。27B模型使用13萬億個標記進行訓練，9B模型使用8萬億個標記進行訓練。主要數據來源包括：

網頁文檔：多樣化的網頁文本集合，確保模型接觸到廣泛的語言風格、主題和詞彙，主要為英文內容。
代碼：讓模型接觸代碼有助於學習編程語言的語法和模式，提高生成代碼或理解代碼相關問題的能力。
數學：在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和處理數學查詢。

數據預處理

對訓練數據應用了以下關鍵的數據清理和過濾方法：

CSAM過濾：在數據準備過程的多個階段應用了嚴格的CSAM（兒童性虐待材料）過濾，以確保排除有害和非法內容。
敏感數據過濾：為了使Gemma預訓練模型安全可靠，使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
其他方法：根據內容質量和安全性進行過濾，符合我們的政策。

硬件

Gemma使用最新一代的張量處理單元（TPU）硬件（TPUv5p）進行訓練。TPU專為機器學習中常見的矩陣運算而設計，在訓練大語言模型方面具有以下優勢：

性能：能夠處理訓練大語言模型所需的大量計算，與CPU相比，可顯著加速訓練過程。
內存：通常配備大量高帶寬內存，可處理大型模型和批量大小，有助於提高模型質量。
可擴展性：TPU Pods（大型TPU集群）為處理大型基礎模型的不斷增長的複雜性提供了可擴展的解決方案，可跨多個TPU設備分佈訓練，實現更快、更高效的處理。
成本效益：在許多情況下，與基於CPU的基礎設施相比，TPU可以為訓練大型模型提供更具成本效益的解決方案，尤其是考慮到更快的訓練速度節省的時間和資源。

軟件

使用JAX和ML Pathways進行訓練。JAX使研究人員能夠利用最新一代的硬件（包括TPU）更快、更高效地訓練大型模型。ML Pathways是Google構建能夠跨多個任務進行泛化的人工智能系統的最新成果，特別適用於基礎模型，包括像Gemma這樣的大語言模型。

📄 許可證

本模型使用Gemma許可證。

模型評估

基準測試結果

這些模型在大量不同的數據集和指標上進行了評估，以涵蓋文本生成的不同方面：

基準測試	指標	Gemma PT 9B	Gemma PT 27B
MMLU	5-shot, top-1	71.3	75.2
HellaSwag	10-shot	81.9	86.4
PIQA	0-shot	81.7	83.2
SocialIQA	0-shot	53.4	53.7
BoolQ	0-shot	84.2	84.8
WinoGrande	partial score	80.6	83.7
ARC-e	0-shot	88.0	88.6
ARC-c	25-shot	68.4	71.4
TriviaQA	5-shot	76.6	83.7
Natural Questions	5-shot	29.2	34.5
HumanEval	pass@1	40.2	51.8
MBPP	3-shot	52.4	62.6
GSM8K	5-shot, maj@1	68.6	74.0
MATH	4-shot	36.6	42.3
AGIEval	3 - 5-shot	52.8	55.1
BIG - Bench	3-shot, CoT	68.2	74.9

倫理和安全評估

評估方法

評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行，每個團隊有不同的目標和人工評估指標。這些模型在與倫理和安全相關的多個類別上進行了評估，包括：

文本到文本內容安全：對涵蓋安全政策（包括兒童性虐待和剝削、騷擾、暴力和血腥以及仇恨言論）的提示進行人工評估。
文本到文本代表性危害：與相關學術數據集（如WinoBias和BBQ數據集）進行基準對比。
記憶：對訓練數據的記憶進行自動化評估，包括個人可識別信息暴露的風險。
大規模危害：測試“危險能力”，如化學、生物、放射性和核（CBRN）風險。

評估結果

倫理和安全評估的結果在滿足內部政策的可接受閾值範圍內，涵蓋兒童安全、內容安全、代表性危害、記憶、大規模危害等類別。除了強大的內部評估外，還展示了一些知名安全基準測試（如BBQ、BOLD、Winogender、Winobias、RealToxicity和TruthfulQA）的結果。

基準測試	指標	Gemma 2 IT 9B	Gemma 2 IT 27B
RealToxicity	average	8.25	8.84
CrowS - Pairs	top - 1	37.47	36.67
BBQ Ambig	1 - shot, top - 1	88.58	85.99
BBQ Disambig	top - 1	82.67	86.94
Winogender	top - 1	79.17	77.22
TruthfulQA		50.27	51.60
Winobias 1_2		78.09	81.94
Winobias 2_2		95.32	97.22
Toxigen		39.30	38.42

使用和限制

預期用途

開源大語言模型（LLMs）在各個行業和領域有廣泛的應用。以下是可能的使用場景列表，但並不全面，旨在提供模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。

內容創作和通信：
- 文本生成：可用於生成創意文本格式，如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式AI：為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要：生成文本語料庫、研究論文或報告的簡潔摘要。
研究和教育：
- 自然語言處理（NLP）研究：為研究人員提供基礎，用於實驗NLP技術、開發算法和推動該領域的發展。
- 語言學習工具：支持交互式語言學習體驗，輔助語法糾正或提供寫作練習。
- 知識探索：幫助研究人員探索大量文本，生成摘要或回答特定主題的問題。

限制

訓練數據：訓練數據的質量和多樣性會顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性，訓練數據集的範圍決定了模型能夠有效處理的主題領域。
上下文和任務複雜性：大語言模型更擅長有明確提示和指令的任務，開放式或高度複雜的任務可能具有挑戰性。模型的性能可能受到提供的上下文量的影響（在一定程度上，更長的上下文通常會導致更好的輸出）。
語言歧義與細微差別：自然語言本質上很複雜，大語言模型可能難以理解微妙的細微差別、諷刺或比喻語言。
事實準確性：大語言模型根據從訓練數據集中學到的信息生成響應，但它們不是知識庫，可能會生成不正確或過時的事實陳述。
常識：大語言模型依賴於語言中的統計模式，在某些情況下可能缺乏應用常識推理的能力。

倫理考慮和風險

大語言模型（LLMs）的開發引發了一些倫理問題。在創建開源模型時，我們仔細考慮了以下方面：

偏差和公平性：在大規模真實世界文本數據上訓練的大語言模型可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查，本卡片中描述了輸入數據的預處理和後續評估情況。
錯誤信息和濫用：大語言模型可能被濫用來生成虛假、誤導或有害的文本。提供了負責任使用模型的指南，請參閱負責任的生成式AI工具包。
透明度和問責制：本模型卡片總結了模型的架構、能力、限制和評估過程的詳細信息。負責任開發的開源模型為AI生態系統中的開發者和研究人員提供了共享創新的機會，使大語言模型技術更易於獲取。

已識別的風險和緩解措施

偏差的延續：鼓勵在模型訓練、微調等用例中進行持續監測（使用評估指標、人工審查）並探索去偏差技術。
有害內容的生成：內容安全機制和指南至關重要。鼓勵開發者根據其特定的產品政策和應用用例謹慎行事，並實施適當的內容安全保障措施。
惡意用途：技術限制以及對開發者和最終用戶的教育有助於減輕大語言模型的惡意應用。提供了教育資源和用戶舉報濫用行為的機制。Gemma模型的禁止使用情況在Gemma禁止使用政策中列出。
隱私侵犯：模型在經過過濾以去除個人可識別信息（PII）的數據上進行訓練。鼓勵開發者遵守隱私法規，採用保護隱私的技術。