🚀 GenZ
GenZ是一款先進的大語言模型(LLM),基於Meta的開源Llama V2 70B參數模型進行微調。其旨在為開源社區提供對微調大語言模型的廣泛訪問權限,推動人工智能技術的發展。
🚀 快速開始
在Hugging Face上使用我們的模型非常簡單,按照以下步驟操作:
1️⃣ 導入必要的模塊
首先從transformers
庫和torch
導入必要的模塊。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("budecosystem/genz-70b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("budecosystem/genz-70b", torch_dtype=torch.bfloat16, rope_scaling={"type": "dynamic", "factor": 2})
prompt = "### User:\nWrite a python flask code for login management\n\n### Assistant:\n"
inputs = tokenizer(prompt, return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))
如果想以更直觀的方式與模型交互,我們設置了一個Gradio界面。前往我們的GitHub頁面,克隆倉庫,然後運行generate.py
腳本進行嘗試。祝你實驗愉快!😄
✨ 主要特性
- 開源共享:致力於為開源社區提供對微調大語言模型的廣泛訪問權限,將發佈一系列不同參數數量(7B、13B和70B)和量化(32位和4位)的模型供開源社區使用、改進和擴展。
- 易於使用:較小量化版本的模型更易於訪問,甚至可以在個人計算機上使用,為開發者、研究人員和愛好者提供了實驗和貢獻的可能性。
- 功能強大:不僅是一個強大的文本生成器,還是一個複雜的AI助手,能夠理解用戶提示並提供高質量的響應。
- 持續優化:團隊致力於不斷改進和增強模型,通過定期使用各種精心策劃的數據集進行微調,以達到並超越現有技術水平。
📦 安裝指南
文檔未提及具體安裝步驟,暫不提供。
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("budecosystem/genz-70b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("budecosystem/genz-70b", torch_dtype=torch.bfloat16, rope_scaling={"type": "dynamic", "factor": 2})
prompt = "### User:\nWrite a python flask code for login management\n\n### Assistant:\n"
inputs = tokenizer(prompt, return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))
📚 詳細文檔
簡介 🎉
GenZ是基於Meta的開源Llama V2 70B參數模型進行微調的先進大語言模型。Bud Ecosystem相信開源協作的力量能夠加速技術的發展,其願景是讓開源社區能夠廣泛訪問微調後的大語言模型。為此,將發佈一系列不同參數數量和量化的模型供開源社區使用、改進和擴展。
較小量化版本的模型更易於訪問,甚至可以在個人計算機上使用,為開發者、研究人員和愛好者提供了實驗和貢獻的可能性。GenZ不僅是一個強大的文本生成器,還是一個複雜的AI助手,能夠理解用戶提示並提供高質量的響應。這僅僅是創建更先進、更高效、更易於訪問的語言模型之旅的開始,歡迎大家加入這個令人興奮的旅程。
里程碑發佈 ️🏁
評估 🎯
評估模型是微調過程的關鍵部分,有助於瞭解模型的性能以及與其他模型的比較情況。以下是GenZ 70B的一些關鍵評估:
基準比較
模型名稱 |
MT Bench |
MMLU |
Human Eval |
BBH |
Genz 13B |
6.12 |
53.62 |
17.68 |
37.76 |
Genz 13B v2 |
6.79 |
53.68 |
21.95 |
38.1 |
Genz 70B |
7.33 |
70.32 |
37.8 |
54.69 |
MT Bench分數
MT Bench分數是評估模型性能的關鍵指標,它提供了對模型在一系列任務上性能的全面評估。
為什麼選擇GenZ? 💡
與預訓練模型相比,GenZ經過精心微調,使用了精心策劃的數據集,因此具有額外的技能和能力。無論是簡單任務還是複雜項目,GenZ都能應對挑戰。
團隊致力於不斷改進GenZ,通過定期使用各種精心策劃的數據集進行微調,以達到並超越現有技術水平。文檔中提供了詳細的評估和性能細節,用戶可以自行比較。選擇GenZ,一起推動大語言模型的邊界。
GenZ 70B模型卡片 📄
模型詳情:
- 開發者:Bud Ecosystem
- 基礎預訓練模型類型:Llama V2 70B
- 模型架構:GenZ 70B是在Llama V2 70B基礎上微調的自迴歸語言模型,採用了優化的Transformer架構。微調過程採用了監督微調(SFT)。
- 許可證:該模型可根據自定義商業許可證進行商業使用。更多信息,請訪問:Meta AI模型和庫下載
預期用途 💼
直接使用
GenZ 70B旨在作為大語言模型研究的強大工具,也是進一步針對特定用例進行專業化和微調的優秀基礎,例如文本摘要、文本生成、聊天機器人創建等。
超出範圍的使用 🚩
- 在未充分評估風險和採取緩解措施的情況下用於生產環境。
- 任何可能被認為不負責任或有害的用例。
- 以任何違反適用法律法規(包括貿易合規法律)的方式使用。
- 以任何違反Llama 2可接受使用政策和許可協議的方式使用。
請記住,GenZ 70B與任何大語言模型一樣,是在代表網絡的大規模語料庫上進行訓練的,因此可能存在常見的在線刻板印象和偏見。
建議 🧠
建議GenZ 70B的用戶針對感興趣的特定任務集進行微調。在任何生產使用中應採取適當的預防措施和保障措施。負責任地使用GenZ 70B是充分發揮其潛力並維護安全和尊重環境的關鍵。
訓練詳情 📚
微調訓練數據
在微調過程中,使用了精心策劃的數據集,包括來自OpenAssistant的指令微調數據集和Thought Source的思維鏈(CoT)方法數據集。這種多樣化的數據源有助於增強模型在一系列任務上的能力。
超參數
超參數 |
值 |
熱身比例 |
0.04 |
學習率調度器類型 |
餘弦 |
學習率 |
2e-5 |
訓練輪數 |
3 |
每個設備的訓練批次大小 |
4 |
梯度累積步數 |
4 |
精度 |
FP16 |
優化器 |
AdamW |
展望未來 👀
團隊對GenZ的未來充滿期待,致力於不斷改進和增強模型,並期待開源社區能夠基於這些模型構建出更多優秀的應用。相信通過合作,能夠共同推動大語言模型的發展。這只是一個開始,相信這個旅程將徹底改變大語言模型的世界。邀請大家一起加入這個令人興奮的旅程,共同探索AI的無限可能。
🔧 技術細節
GenZ 70B是在Llama V2 70B基礎上微調的自迴歸語言模型,採用了優化的Transformer架構。微調過程採用了監督微調(SFT)。在微調過程中,使用了精心策劃的數據集,包括來自OpenAssistant的指令微調數據集和Thought Source的思維鏈(CoT)方法數據集。超參數設置如下:
超參數 |
值 |
熱身比例 |
0.04 |
學習率調度器類型 |
餘弦 |
學習率 |
2e-5 |
訓練輪數 |
3 |
每個設備的訓練批次大小 |
4 |
梯度累積步數 |
4 |
精度 |
FP16 |
優化器 |
AdamW |
📄 許可證
GenZ 70B模型可根據自定義商業許可證進行商業使用。更多信息,請訪問:Meta AI模型和庫下載
查看GitHub代碼 -> GenZ