🚀 RecurrentGemma模型卡片
RecurrentGemma是基於谷歌開發的新型循環架構構建的開放語言模型家族,適用於多種文本生成任務。本模型卡片對應RecurrentGemma模型的2B基礎版本,你也可以訪問2B指令模型的模型卡片。
🚀 快速開始
在運行模型前,請確保你已經安裝了必要的庫。首先執行以下命令更新transformers
庫:
pip install --upgrade git+https://github.com/huggingface/transformers.git
然後根據你的使用場景,從下面的代碼片段中選擇合適的部分進行復制使用。
單GPU或多GPU運行模型
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("google/recurrentgemma-2b")
model = AutoModelForCausalLM.from_pretrained("google/recurrentgemma-2b", device_map="auto")
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
✨ 主要特性
- 新型架構:基於谷歌開發的新型循環架構構建,在長序列生成時,相比Gemma模型需要更少的內存且推理速度更快。
- 多任務適用:適用於多種文本生成任務,如問答、摘要和推理等。
📚 詳細文檔
模型信息
模型概述
RecurrentGemma是一個開放語言模型家族,基於谷歌開發的新型循環架構構建。目前提供預訓練和指令調優兩個版本,均為英文。該模型適用於多種文本生成任務,由於其新型架構,在生成長序列時,相比Gemma模型需要更少的內存且推理速度更快。
輸入與輸出
- 輸入:文本字符串(如問題、提示或待總結的文檔)。
- 輸出:針對輸入生成的英文文本(如問題的答案、文檔的摘要)。
引用
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
模型數據
RecurrentGemma使用與Gemma模型家族相同的訓練數據和數據處理方法。完整描述可在Gemma模型卡片中找到。
實現信息
RecurrentGemma與Gemma一樣,在TPUv5e上進行訓練,使用了JAX和ML Pathways。
評估信息
評估方法
這些模型針對大量不同的數據集和指標進行了評估,以涵蓋文本生成的不同方面。
評估結果
倫理與安全
倫理與安全評估
我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行,每個團隊都有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行了評估,包括:
- 文本到文本內容安全:對涵蓋安全政策的提示進行人工評估,包括兒童性虐待和剝削、騷擾、暴力和血腥以及仇恨言論。
- 文本到文本代表性危害:針對相關學術數據集(如WinoBias和BBQ數據集)進行基準測試。
- 記憶:對訓練數據的記憶進行自動評估,包括個人身份信息暴露的風險。
- 大規模危害:測試“危險能力”,如化學、生物、放射和核(CBRN)風險;以及說服和欺騙、網絡安全和自主複製的測試。
評估結果
模型使用與限制
已知限制
- 訓練數據:訓練數據的質量和多樣性會顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。訓練數據集的範圍決定了模型能夠有效處理的主題領域。
- 上下文和任務複雜性:大語言模型更擅長可以用清晰提示和說明來構建的任務。開放式或高度複雜的任務可能具有挑戰性。模型的性能可能會受到提供的上下文數量的影響(在一定程度上,更長的上下文通常會導致更好的輸出)。
- 語言歧義與細微差別:自然語言本質上是複雜的。大語言模型可能難以理解微妙的細微差別、諷刺或比喻性語言。
- 事實準確性:大語言模型根據從訓練數據集中學到的信息生成響應,但它們不是知識庫。它們可能會生成不正確或過時的事實陳述。
- 常識:大語言模型依賴於語言中的統計模式。它們可能在某些情況下缺乏應用常識推理的能力。
倫理考慮與風險
大型語言模型(LLM)的開發引發了一些倫理問題。在創建開放模型時,我們仔細考慮了以下幾點:
- 偏差與公平性:在大規模真實世界文本數據上訓練的大語言模型可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查,輸入數據預處理在本卡片中進行了描述,並報告了後續評估結果。
- 錯誤信息與濫用:大語言模型可能被濫用來生成虛假、誤導或有害的文本。我們提供了負責任使用模型的指南,請參閱負責任生成式AI工具包。
- 透明度與問責制:本模型卡片總結了模型的架構、能力、限制和評估過程的詳細信息。一個負責任開發的開放模型為在整個AI生態系統中使LLM技術可供開發者和研究人員使用提供了分享創新的機會。
已識別風險與緩解措施
- 偏差的延續:鼓勵在模型訓練、微調等使用場景中進行持續監測(使用評估指標、人工審查)並探索去偏技術。
- 有害內容的生成:內容安全的機制和指南至關重要。鼓勵開發者根據其特定的產品政策和應用用例謹慎行事並實施適當的內容安全保障措施。
- 惡意用途的濫用:技術限制以及對開發者和最終用戶的教育可以幫助減輕大語言模型的惡意應用。我們提供了教育資源和用戶舉報濫用的機制。Gemma模型的禁止用途在我們的使用條款中進行了概述。
- 隱私侵犯:模型在經過過濾以去除個人身份信息(PII)的數據上進行訓練。鼓勵開發者遵守隱私法規並使用隱私保護技術。
預期用途
應用場景
開放大語言模型(LLM)在各個行業和領域都有廣泛的應用。以下潛在用途列表並不全面。此列表的目的是提供有關模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。
- 內容創作與溝通
- 文本生成:這些模型可用於生成創意文本格式,如詩歌、腳本、代碼、營銷文案、電子郵件草稿等。
- 聊天機器人和對話式AI:為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要:生成文本語料庫、研究論文或報告的簡潔摘要。
- 研究與教育
- 自然語言處理(NLP)研究:這些模型可以為研究人員提供基礎,用於實驗NLP技術、開發算法並推動該領域的發展。
- 語言學習工具:支持交互式語言學習體驗,幫助進行語法糾正或提供寫作練習。
- 知識探索:通過生成摘要或回答關於特定主題的問題,幫助研究人員探索大量文本。
優勢
在發佈時,與類似規模的模型相比,這個模型家族提供了從頭開始為負責任AI開發設計的高性能開放大語言模型實現。使用本文檔中描述的基準評估指標,這些模型已顯示出比其他類似規模的開放模型替代方案具有更優的性能。特別是,RecurrentGemma模型在推理時比Gemma模型更快,並且需要更少的內存,尤其是在長序列上。
📄 許可證
本項目採用gemma許可證。
⚠️ 重要提示
要在Hugging Face上訪問RecurrentGemma,你需要審查並同意Google的使用許可。為此,請確保你已登錄Hugging Face並點擊下方按鈕。請求將立即處理。