模型概述
模型特點
模型能力
使用案例
🚀 Gemma模型卡片
Gemma是谷歌推出的一系列輕量級、最先進的開源模型,適用於多種文本生成任務。它基於與Gemini模型相同的研究和技術構建,具有開放的權重、預訓練變體和指令微調變體,能在資源有限的環境中部署。
🚀 快速開始
模型信息
-
模型頁面:Gemma
-
版本說明:本模型卡片對應Gemma模型最新的7B指令微調版本。以下是Gemma系列的其他模型: | | 基礎版本 | 指令微調版本 | |----|----------------------------------------------------|----------------------------------------------------------------------| | 2B | gemma-2b | gemma-1.1-2b-it | | 7B | gemma-7b | gemma-1.1-7b-it |
-
發佈說明:這是Gemma 1.1 7B(IT)版本,是對原始指令微調版Gemma的更新。Gemma 1.1採用了一種新穎的基於人類反饋的強化學習(RLHF)方法進行訓練,在質量、編碼能力、事實性、指令遵循和多輪對話質量方面都有顯著提升。同時修復了多輪對話中的一個錯誤,並確保模型回覆不會總是以
"Sure,"
開頭。 -
資源和技術文檔:
-
使用條款:條款
-
作者:Google
安裝指南
首先確保你已經安裝了 transformers
庫,可以使用以下命令進行更新:
pip install -U transformers
💻 使用示例
基礎用法
以下是在CPU上運行模型的示例代碼:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("google/gemma-1.1-7b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-1.1-7b-it",
torch_dtype=torch.bfloat16
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**input_ids, max_new_tokens=50)
print(tokenizer.decode(outputs[0]))
高級用法
以下是在單個或多個GPU上運行模型的示例代碼:
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("google/gemma-1.1-7b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-1.1-7b-it",
device_map="auto",
torch_dtype=torch.bfloat16
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
詳細文檔
模型描述
Gemma是谷歌推出的一系列輕量級、最先進的開源模型,基於與Gemini模型相同的研究和技術構建。它們是僅解碼器的大語言模型,支持文本到文本的轉換,提供英文版本,具有開放的權重、預訓練變體和指令微調變體。Gemma模型適用於多種文本生成任務,如問答、摘要和推理。由於其相對較小的規模,可以在資源有限的環境中部署,如筆記本電腦、臺式機或自己的雲基礎設施,使更多人能夠使用最先進的AI模型,促進創新。
輸入輸出
- 輸入:文本字符串,如問題、提示或待總結的文檔。
- 輸出:針對輸入生成的英文文本,如問題的答案或文檔的摘要。
聊天模板
指令微調模型使用了一個聊天模板,在進行對話時必須遵循該模板。最簡單的應用方式是使用分詞器的內置聊天模板,如下所示:
from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch
model_id = "google/gemma-1.1-7b-it"
dtype = torch.bfloat16
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="cuda",
torch_dtype=dtype,
)
chat = [
{ "role": "user", "content": "Write a hello world program" },
]
prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
微調
你可以在google/gemma-7b
倉庫的examples/
目錄中找到一些微調腳本。要將它們應用於本模型,只需將模型ID更改為 google/gemma-1.1-7b-it
。我們提供了以下腳本和筆記本:
- 一個使用QLoRA在UltraChat數據集上進行監督微調(SFT)的腳本。
- 一個在TPU設備上使用FSDP進行SFT的腳本。
- 一個可以在免費的Google Colab實例上運行的筆記本,用於在英文名言數據集上進行SFT。
🔧 技術細節
模型數據
- 訓練數據集:這些模型在一個包含多種來源的文本數據集上進行訓練,總計6萬億個標記。主要組成部分包括:
- 網頁文檔:多樣化的網頁文本集合,確保模型接觸到廣泛的語言風格、主題和詞彙,主要是英文內容。
- 代碼:讓模型接觸代碼有助於學習編程語言的語法和模式,提高生成代碼或理解與代碼相關問題的能力。
- 數學:在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和處理數學查詢。
- 數據預處理:對訓練數據應用了以下關鍵的數據清理和過濾方法:
- CSAM過濾:在數據準備過程的多個階段應用了嚴格的CSAM(兒童性虐待材料)過濾,以確保排除有害和非法內容。
- 敏感數據過濾:為了使Gemma預訓練模型安全可靠,使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
- 其他方法:根據內容質量和安全性進行過濾,符合我們的政策。
實現信息
- 硬件:Gemma使用最新一代的張量處理單元(TPU)硬件(TPUv5e)進行訓練。訓練大語言模型需要大量的計算能力,TPU專門為機器學習中常見的矩陣運算而設計,在這個領域具有以下優勢:
- 性能:TPU專門用於處理訓練大語言模型所涉及的大規模計算,與CPU相比,可以顯著加快訓練速度。
- 內存:TPU通常配備大量的高帶寬內存,允許在訓練過程中處理大型模型和批量大小,有助於提高模型質量。
- 可擴展性:TPU Pod(大型TPU集群)為處理大型基礎模型的不斷增長的複雜性提供了可擴展的解決方案。可以在多個TPU設備上分佈訓練,以實現更快、更高效的處理。
- 成本效益:在許多情況下,與基於CPU的基礎設施相比,TPU可以為訓練大型模型提供更具成本效益的解決方案,特別是考慮到由於更快的訓練速度而節省的時間和資源。
- 這些優勢符合谷歌在可持續運營方面的承諾。
- 軟件:使用JAX和ML Pathways進行訓練。JAX允許研究人員利用最新一代的硬件(包括TPU)進行更快、更高效的大型模型訓練。ML Pathways是谷歌構建能夠跨多個任務進行泛化的人工智能系統的最新努力,特別適用於基礎模型,包括像這樣的大語言模型。JAX和ML Pathways的使用方式在關於Gemini系列模型的論文中有描述:“Jax和Pathways的‘單控制器’編程模型允許單個Python進程編排整個訓練運行,大大簡化了開發工作流程。”
評估
基準測試結果
對預訓練的基礎模型在大量不同的數據集和指標上進行了評估,以涵蓋文本生成的不同方面:
基準測試 | 指標 | 2B參數模型 | 7B參數模型 |
---|---|---|---|
MMLU | 5-shot, top-1 | 42.3 | 64.3 |
HellaSwag | 0-shot | 71.4 | 81.2 |
PIQA | 0-shot | 77.3 | 81.2 |
SocialIQA | 0-shot | 49.7 | 51.8 |
BooIQ | 0-shot | 69.4 | 83.2 |
WinoGrande | partial score | 65.4 | 72.3 |
CommonsenseQA | 7-shot | 65.3 | 71.3 |
OpenBookQA | 47.8 | 52.8 | |
ARC-e | 73.2 | 81.5 | |
ARC-c | 42.1 | 53.2 | |
TriviaQA | 5-shot | 53.2 | 63.4 |
Natural Questions | 5-shot | 12.5 | 23 |
HumanEval | pass@1 | 22.0 | 32.3 |
MBPP | 3-shot | 29.2 | 44.4 |
GSM8K | maj@1 | 17.7 | 46.4 |
MATH | 4-shot | 11.8 | 24.3 |
AGIEval | 24.2 | 41.7 | |
BIG-Bench | 35.2 | 55.1 | |
------------------------------ | ------------- | ----------- | --------- |
平均 | 45.0 | 56.9 |
倫理與安全
評估方法
我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行,每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行了評估,包括:
- 文本到文本內容安全:對涵蓋安全政策的提示進行人工評估,包括兒童性虐待和剝削、騷擾、暴力和血腥內容以及仇恨言論。
- 文本到文本代表性危害:與相關學術數據集進行基準測試,如WinoBias和BBQ數據集。
- 記憶:對訓練數據的記憶進行自動化評估,包括個人身份信息暴露的風險。
- 大規模危害:測試“危險能力”,如化學、生物、放射性和核(CBRN)風險。
評估結果
倫理和安全評估的結果在可接受的閾值範圍內,符合內部政策,涵蓋兒童安全、內容安全、代表性危害、記憶和大規模危害等類別。除了強大的內部評估外,還展示了一些知名安全基準測試的結果,如BBQ、BOLD、Winogender、Winobias、RealToxicity和TruthfulQA。
使用與限制
預期用途
開源大語言模型(LLMs)在各個行業和領域有廣泛的應用。以下是一些可能的用途,但並不全面,旨在提供模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。
- 內容創作與溝通:
- 文本生成:可用於生成創意文本格式,如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式AI:為客戶服務、虛擬助手或交互式應用提供對話界面。
- 文本摘要:生成文本語料庫、研究論文或報告的簡潔摘要。
- 研究與教育:
- 自然語言處理(NLP)研究:可作為研究人員實驗NLP技術、開發算法和推動該領域發展的基礎。
- 語言學習工具:支持交互式語言學習體驗,有助於語法糾正或提供寫作練習。
- 知識探索:通過生成摘要或回答特定主題的問題,幫助研究人員探索大量文本。
侷限性
- 訓練數據:訓練數據的質量和多樣性會顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型回覆的侷限性。訓練數據集的範圍決定了模型能夠有效處理的主題領域。
- 上下文和任務複雜性:LLMs更擅長可以用清晰提示和指令描述的任務。開放式或高度複雜的任務可能具有挑戰性。模型的性能可能受到提供的上下文量的影響(在一定範圍內,更長的上下文通常會導致更好的輸出)。
- 語言歧義與細微差別:自然語言本質上是複雜的,LLMs可能難以理解微妙的細微差別、諷刺或比喻語言。
- 事實準確性:LLMs根據從訓練數據中學到的信息生成回覆,但它們不是知識庫,可能會生成不正確或過時的事實陳述。
- 常識:LLMs依賴於語言中的統計模式,在某些情況下可能缺乏應用常識推理的能力。
倫理考慮與風險
大語言模型(LLMs)的開發引發了一些倫理問題。在創建開源模型時,我們仔細考慮了以下方面:
- 偏差與公平性:在大規模真實世界文本數據上訓練的LLMs可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查,在本卡片中描述了輸入數據預處理和後續評估。
- 錯誤信息與濫用:LLMs可能被濫用來生成虛假、誤導或有害的文本。我們提供了負責任使用模型的指南,見負責任的生成式AI工具包。
- 透明度與問責制:本模型卡片總結了模型的架構、能力、侷限性和評估過程的詳細信息。一個負責任開發的開源模型為開發者和研究人員提供了分享創新的機會,使LLM技術在整個AI生態系統中更易於訪問。
許可證
本模型的許可證為 gemma
。
訪問Gemma
要在Hugging Face上訪問Gemma,你需要審查並同意Google的使用許可。請確保你已登錄Hugging Face,然後點擊下面的按鈕。請求將立即處理。 確認許可



