模型概述
模型特點
模型能力
使用案例
🚀 T5Gemma模型卡片
T5Gemma是谷歌推出的輕量級且強大的編碼器 - 解碼器研究模型家族。它能繼承僅解碼器模型的基礎能力,在質量和效率間取得良好平衡,適用於多種生成和判別任務,還能在資源有限的環境中部署。
🚀 快速開始
安裝
首先,使用以下命令安裝Transformers庫:
pip install -U transformers
運行示例
使用pipeline
API運行
import torch
from transformers import pipeline
pipe = pipeline(
"text2text-generation",
model="google/t5gemma-s-s-ul2",
device="cuda", # 若在Mac設備上運行,將其替換為 "mps"
)
text = "Once upon a time,"
outputs = pipe(text, max_new_tokens=32)
response = outputs[0]["generated_text"]
print(response)
在單GPU或多GPU上運行模型
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch
tokenizer = AutoTokenizer.from_pretrained("google/t5gemma-s-s-ul2")
model = AutoModelForSeq2SeqLM.from_pretrained(
"google/t5gemma-s-s-ul2",
device_map="auto",
)
input_text = "Write me a poem about Machine Learning. Answer:"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
✨ 主要特性
- 靈活架構:可靈活搭配不同大小的編碼器和解碼器,如9B編碼器搭配2B解碼器。
- 多系列版本:包括直接從官方Gemma 2 2B和9B檢查點改編的Gemma 2系列,以及與傳統T5模型架構和參數數量對齊的T5兼容系列。
- 廣泛適用性:適用於多種生成任務,如問答、摘要和推理;其編碼器也可用於判別任務。
- 資源友好:相對較小的模型尺寸使其能夠在筆記本電腦、臺式機或自有云基礎設施等資源有限的環境中部署。
📚 詳細文檔
模型信息
描述
T5Gemma是谷歌推出的一系列輕量級但功能強大的編碼器 - 解碼器研究模型。這些模型是通過將預訓練的僅解碼器模型改編為編碼器 - 解碼器模型而創建的。這種改編使T5Gemma能夠繼承僅解碼器模型的基礎能力,同時提供更有利的質量 - 效率權衡。一個關鍵特性是能夠靈活地搭配不同大小的編碼器和解碼器(例如,9B編碼器搭配2B解碼器)。
T5Gemma發佈了兩個不同的系列:
- Gemma 2系列:直接從官方Gemma 2 2B和9B檢查點改編的模型。包括2B - 2B、9B - 9B和9B - 2B變體。
- T5兼容系列:使用Gemma 2配方從頭開始預訓練的模型,但架構和參數數量與傳統T5模型(Small、Base、Large、XL)對齊。該系列還包括一個ML(Medium - Large,約2B)模型,以填補Large和XL之間的差距。
這些模型是文本到文本的,支持英語,預訓練變體(通過PrefixLM或UL2等目標進行改編)和指令調整變體的權重是開放的。T5Gemma模型非常適合各種生成任務,包括問答、摘要和推理。同時,它們的編碼器可用於判別任務,在分類和理解基準測試中表現出色。
輸入和輸出
- 輸入:文本字符串,如問題、提示或待摘要的文檔。
- 輸出:針對輸入生成的英語文本,如問題的答案或文檔的摘要。
引用
@article{t5gemma_2025,
title={Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation},
author={Zhang, Biao and Moiseev, Fedor and Ainslie, Joshua and Suganthan, Paul and Ma, Min and Bhupatiraju, Surya and Lebron, Fede and Firat, Orhan and Joulin, Armand and Dong, Zhe},
year={2025}
}
模型數據
訓練數據集
這些模型在包含多種來源的文本數據集上進行訓練。9B - 9B、9B - 2B和2B - 2B模型使用2萬億個標記進行改編,T5大小的模型(Small、Base、Large、ML和XL)首先使用2萬億個標記進行預訓練(僅解碼器),然後使用2萬億個標記進行改編(編碼器 - 解碼器)。主要組成部分如下:
- 網頁文檔:多樣化的網頁文本集合確保模型接觸到廣泛的語言風格、主題和詞彙。主要是英語內容。
- 代碼:讓模型接觸代碼有助於它學習編程語言的語法和模式,從而提高其生成代碼或理解與代碼相關問題的能力。
- 數學:在數學文本上進行訓練有助於模型學習邏輯推理、符號表示,並處理數學查詢。
這些多樣化數據源的組合對於訓練一個能夠處理各種不同任務和文本格式的強大語言模型至關重要。
數據預處理
以下是應用於訓練數據的主要數據清理和過濾方法:
- CSAM過濾:在數據準備過程的多個階段應用了嚴格的CSAM(兒童性虐待材料)過濾,以確保排除有害和非法內容。
- 敏感數據過濾:作為使Gemma預訓練模型安全可靠的一部分,使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
- 其他方法:根據我們的政策基於內容質量和安全性進行過濾。
實現信息
硬件
T5Gemma使用張量處理單元(TPU)硬件(TPUv4p、TPUv5p和TPUv5e)進行訓練。訓練大型語言模型需要大量的計算能力。TPU專門為機器學習中常見的矩陣運算而設計,在這一領域具有以下優勢:
- 性能:TPU專門用於處理訓練大語言模型所涉及的大規模計算。與CPU相比,它們可以顯著加速訓練過程。
- 內存:TPU通常配備大量的高帶寬內存,允許在訓練期間處理大型模型和批量大小。這有助於提高模型質量。
- 可擴展性:TPU Pod(大型TPU集群)為處理大型基礎模型不斷增長的複雜性提供了可擴展的解決方案。您可以將訓練分佈在多個TPU設備上,以實現更快、更高效的處理。
- 成本效益:在許多情況下,與基於CPU的基礎設施相比,TPU可以為訓練大型模型提供更具成本效益的解決方案,特別是考慮到更快的訓練速度所節省的時間和資源。
- 這些優勢與谷歌的可持續運營承諾相一致。
軟件
訓練使用JAX和ML Pathways進行。JAX使研究人員能夠利用最新一代的硬件(包括TPU)來更快、更高效地訓練大型模型。ML Pathways是谷歌構建能夠跨多個任務進行泛化的人工智能系統的最新努力。這特別適用於基礎模型,包括像這樣的大型語言模型。
JAX和ML Pathways的使用方式如關於Gemini模型家族的論文中所述:“Jax和Pathways的‘單控制器’編程模型允許單個Python進程編排整個訓練過程,極大地簡化了開發工作流程。”
評估
基準測試結果
這些模型針對大量不同的數據集和指標進行了評估,以涵蓋文本生成的各個方面。
PT模型。XX/YY:PrefixLM/UL2檢查點的結果。
基準測試 | 指標 | 2B - 2B | 9B - 2B | 9B - 9B | S - S | B - B | L - L | ML - ML | XL - XL |
---|---|---|---|---|---|---|---|---|---|
MMLU | 5 - shot,top - 1 | 46.8/50.4 | 60.3/64.8 | 71.3/72.1 | 24.7/25.2 | 24.8/25.7 | 27.3/27.5 | 27.3/29.1 | 34.8/36.6 |
HellaSwag | 10 - shot | 74.9/74.0 | 75.7/74.3 | 81.0/82.5 | 30.9/30.5 | 40.5/38.6 | 57.3/54.9 | 65.4/64.5 | 68.9/69.0 |
PIQA | 0 - shot | 79.0/78.8 | 78.3/78.2 | 81.1/82.4 | 62.8/61.5 | 67.0/66.2 | 71.2/70.9 | 74.3/75.5 | 76.2/78.0 |
BoolQ | 0 - shot | 75.6/77.5 | 84.6/85.1 | 85.6/87.0 | 53.1/61.1 | 52.3/49.6 | 62.2/62.3 | 62.6/61.7 | 69.9/68.0 |
WinoGrande | 部分得分 | 69.5/69.8 | 68.1/58.8 | 78.7/78.2 | 52.0/50.0 | 53.9/51.6 | 58.1/56.7 | 64.6/62.4 | 64.7/65.1 |
ARC - e | 0 - shot | 77.1/76.5 | 82.9/81.1 | 85.3/86.0 | 42.3/43.8 | 48.5/47.9 | 59.5/56.9 | 65.8/63.5 | 71.2/69.2 |
ARC - c | 25 - shot | 52.0/53.5 | 59.9/59.6 | 65.0/66.5 | 23.0/23.4 | 25.1/25.7 | 32.7/31.5 | 41.4/40.4 | 46.5/45.9 |
TriviaQA | 5 - shot | 51.2/51.1 | 66.2/58.3 | 75.2/73.3 | 3.2/3.3 | 7.2/5.9 | 19.4/15.9 | 33.2/25.4 | 41.0/34.3 |
Natural Questions | 5 - shot | 28.4/28.3 | 37.1/33.9 | 43.1/44.0 | 7.1/7.7 | 10.8/10.9 | 15.6/15.3 | 21.5/19.6 | 23.7/21.8 |
HumanEval | pass@1 | 27.4/28.0 | 33.5/22.0 | 40.2/37.2 | 0.6/0.0 | 3.7/1.8 | 12.8/8.5 | 17.1/15.9 | 23.2/19.5 |
MBPP | 3 - shot | 37.4/36.4 | 43.4/38.6 | 55.6/55.2 | 1.4/0.0 | 4.6/3.4 | 15.0/11.8 | 27/24.6 | 30.0/28.0 |
GSM8K | 5 - shot,maj@1 | 41.7/35.8 | 48.7/39.7 | 72.8/74.0 | 2.0/0.8 | 2.2/1.5 | 6.6/4.1 | 13.7/17.5 | 25.8/22.4 |
MATH - 500 | 4 - shot | 24.2/20.4 | 23.6/18.4 | 37.8/39.2 | 1.0/1.2 | 1.8/2.4 | 5.0/4.8 | 11.0/12 | 15.6/12.4 |
AGIEval | 3 - 5 - shot | 35.0/37.0 | 43.6/45.7 | 53.1/56.4 | 20.8/21.4 | 21.8/21.3 | 22.5/23.0 | 23.4/24.5 | 28.0/27.4 |
BIG - Bench | 3 - shot,CoT | 51.9/50.5 | 51.6/52.1 | 74.7/76.3 | 24.7/22.7 | 23.0/24.8 | 29.9/31.3 | 37.3/35.9 | 44.5/43.1 |
倫理與安全
評估方法
我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行,每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行了評估,包括:
- 兒童安全:評估涵蓋兒童安全政策的文本到文本提示,包括兒童性虐待和剝削。
- 內容安全:評估涵蓋安全政策的文本到文本提示,包括騷擾、暴力和血腥內容以及仇恨言論。
- 代表性危害:評估涵蓋安全政策的文本到文本提示,包括偏見、刻板印象以及有害關聯或不準確信息。
除了開發階段的評估,我們還進行“保證評估”,這是我們的“獨立”內部評估,用於責任治理決策。這些評估與模型開發團隊分開進行,以提供有關發佈的決策信息。高層結果反饋給模型團隊,但提示集被保留以防止過擬合,並保留結果為決策提供信息的能力。保證評估結果作為發佈審查的一部分報告給我們的責任與安全委員會。
評估結果
在所有安全測試領域,與之前的Gemma模型相比,我們在兒童安全、內容安全和代表性危害類別中看到了重大改進。所有測試都是在沒有安全過濾器的情況下進行的,以評估模型的能力和行為。對於文本到文本和圖像到文本,以及所有模型大小,模型產生的政策違規最少,並且在無根據推理方面比之前的Gemma模型有顯著改進。我們評估的一個侷限性是隻包括英語提示。
使用與限制
預期用途
開放大語言模型(LLM)在各個行業和領域有廣泛的應用。以下潛在用途列表並不全面。此列表的目的是提供有關模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。
- 內容創作與溝通
- 文本生成:這些模型可用於生成創意文本格式,如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 文本摘要:生成文本語料庫、研究論文或報告的簡潔摘要。
- 研究與教育
- 自然語言處理(NLP)研究:這些模型可以作為研究人員試驗NLP技術、開發算法並推動該領域發展的基礎。
限制
- 訓練數據
- 訓練數據的質量和多樣性會顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。
- 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
- 上下文和任務複雜性
- 模型更擅長可以用清晰提示和說明構建的任務。開放式或高度複雜的任務可能具有挑戰性。
- 模型的性能可能受到提供的上下文量的影響(在一定程度上,更長的上下文通常會導致更好的輸出)。
- 語言歧義與細微差別
- 自然語言本質上是複雜的。模型可能難以理解微妙的細微差別、諷刺或比喻性語言。
- 事實準確性
- 模型根據從訓練數據集中學到的信息生成響應,但它們不是知識庫。它們可能會生成不正確或過時的事實陳述。
- 常識
- 模型依賴於語言中的統計模式。它們可能在某些情況下缺乏應用常識推理的能力。
倫理考慮與風險
大語言模型(LLM)的開發引發了一些倫理問題。在創建開放模型時,我們仔細考慮了以下方面:
- 偏差與公平性
- 在大規模真實世界文本數據上訓練的LLM可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查,輸入數據的預處理在本卡片中進行了描述,並報告了後續評估結果。
- 錯誤信息與濫用
- LLM可能被濫用來生成虛假、誤導或有害的文本。
- 為模型的負責任使用提供了指南,請參閱負責任生成式AI工具包。
- 透明度與問責制
- 本模型卡片總結了模型的架構、能力、限制和評估過程的詳細信息。
- 一個負責任開發的開放模型為通過使LLM技術可供AI生態系統中的開發人員和研究人員使用來分享創新提供了機會。
已識別的風險與緩解措施
- 偏差的延續:鼓勵在模型訓練、微調等用例中進行持續監控(使用評估指標、人工審查)並探索去偏技術。
- 有害內容的生成:內容安全機制和指南至關重要。鼓勵開發人員根據其特定的產品政策和應用用例謹慎行事並實施適當的內容安全保障措施。
- 惡意用途:技術限制以及對開發人員和最終用戶的教育有助於減輕LLM的惡意應用。提供了教育資源和用戶舉報濫用的機制。Gemma模型的禁止使用情況在Gemma禁止使用政策中進行了概述。
- 隱私侵犯:模型在經過過濾以去除某些個人信息和其他敏感數據的數據上進行訓練。鼓勵開發人員遵守隱私法規並採用隱私保護技術。
優勢
在發佈時,與類似大小的模型相比,這個模型家族提供了從頭開始為負責任AI開發設計的高性能開放編碼器 - 解碼器大語言模型實現。
使用本文檔中描述的基準評估指標,這些模型已顯示出比其他類似大小的開放模型替代品具有更優越的性能。
📄 許可證
許可證為:gemma
其他信息
模型頁面
資源與技術文檔
使用條款
作者
Google DeepMind
⚠️ 重要提示
要在Hugging Face上訪問Gemma,您需要審查並同意Google的使用許可。為此,請確保您已登錄Hugging Face並點擊下方按鈕。請求將立即處理。
💡 使用建議
按照文檔中的安裝和使用步驟進行操作,確保使用合適的硬件和軟件環境。在使用過程中,注意模型的侷限性和倫理考慮,遵循相關的使用指南和政策。



