Genz-70b開源大語言模型 - 基於Llama V2微調，提供高性能文本生成

首頁

Genz 70b

由budecosystem開發

GenZ 是基於 Meta 開源 Llama V2 700 億參數模型微調的先進大語言模型，旨在為開源社區提供高性能的文本生成能力。

大型語言模型

Transformers

英語#700億參數微調 #多任務文本生成 #低資源推理優化

下載量 1,556

發布時間 : 8/21/2023

模型概述

GenZ 是一個強大的文本生成模型，基於 Llama V2 70B 微調，適用於多種自然語言處理任務，如文本摘要、聊天機器人開發等。

模型特點

高性能微調

基於 Llama V2 70B 模型進行微調，提供更以用戶為中心的體驗和更高質量的回應。

多量化版本支持

提供不同參數規模（7B、13B 和 70B）和量化版本（32 位和 4 位），適應不同硬件需求。

開源協作

致力於開源協作，推動大語言模型技術的普及和進步。

模型能力

文本生成

文本摘要

聊天機器人開發

指令理解與執行

使用案例

自然語言處理

文本摘要

生成長篇文章或文檔的簡潔摘要。

高質量摘要，保留關鍵信息。

聊天機器人

開發智能聊天機器人，提供自然流暢的對話體驗。

能夠理解用戶提示並以高質量回應。

代碼生成

代碼編寫

根據用戶需求生成 Python、JavaScript 等編程語言的代碼片段。

生成功能完整的代碼片段，如 Flask 登錄管理代碼。

🚀 GenZ

GenZ是一款先進的大語言模型（LLM），基於Meta的開源Llama V2 70B參數模型進行微調。其旨在為開源社區提供對微調大語言模型的廣泛訪問權限，推動人工智能技術的發展。

🚀 快速開始

在Hugging Face上使用我們的模型非常簡單，按照以下步驟操作：

1️⃣ 導入必要的模塊

首先從transformers庫和torch導入必要的模塊。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("budecosystem/genz-70b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("budecosystem/genz-70b", torch_dtype=torch.bfloat16, rope_scaling={"type": "dynamic", "factor": 2})

prompt = "### User:\nWrite a python flask code for login management\n\n### Assistant:\n"

inputs = tokenizer(prompt, return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))

如果想以更直觀的方式與模型交互，我們設置了一個Gradio界面。前往我們的GitHub頁面，克隆倉庫，然後運行generate.py腳本進行嘗試。祝你實驗愉快！😄

✨ 主要特性

開源共享：致力於為開源社區提供對微調大語言模型的廣泛訪問權限，將發佈一系列不同參數數量（7B、13B和70B）和量化（32位和4位）的模型供開源社區使用、改進和擴展。
易於使用：較小量化版本的模型更易於訪問，甚至可以在個人計算機上使用，為開發者、研究人員和愛好者提供了實驗和貢獻的可能性。
功能強大：不僅是一個強大的文本生成器，還是一個複雜的AI助手，能夠理解用戶提示並提供高質量的響應。
持續優化：團隊致力於不斷改進和增強模型，通過定期使用各種精心策劃的數據集進行微調，以達到並超越現有技術水平。

📦 安裝指南

文檔未提及具體安裝步驟，暫不提供。

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("budecosystem/genz-70b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("budecosystem/genz-70b", torch_dtype=torch.bfloat16, rope_scaling={"type": "dynamic", "factor": 2})

prompt = "### User:\nWrite a python flask code for login management\n\n### Assistant:\n"

inputs = tokenizer(prompt, return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))

📚 詳細文檔

簡介 🎉

GenZ是基於Meta的開源Llama V2 70B參數模型進行微調的先進大語言模型。Bud Ecosystem相信開源協作的力量能夠加速技術的發展，其願景是讓開源社區能夠廣泛訪問微調後的大語言模型。為此，將發佈一系列不同參數數量和量化的模型供開源社區使用、改進和擴展。

較小量化版本的模型更易於訪問，甚至可以在個人計算機上使用，為開發者、研究人員和愛好者提供了實驗和貢獻的可能性。GenZ不僅是一個強大的文本生成器，還是一個複雜的AI助手，能夠理解用戶提示並提供高質量的響應。這僅僅是創建更先進、更高效、更易於訪問的語言模型之旅的開始，歡迎大家加入這個令人興奮的旅程。

里程碑發佈 ️🏁

[2023年8月21日]：GenZ-70B 發佈，可從 HuggingFace 下載體驗。
[2023年7月27日]：GenZ-13B V2 (ggml) 發佈，該變體可以僅使用CPU進行推理，無需GPU，可從 HuggingFace 下載。
[2023年7月27日]：GenZ-13B V2 (4位) 發佈，與32位變體相比，使用更少的GPU內存進行推理，可從 HuggingFace 下載。
[2023年7月26日]：GenZ-13B V2 發佈，與v1相比，評估結果有所改進，可從 HuggingFace 下載體驗。
[2023年7月20日]：GenZ-13B 發佈，可從 Hugging Face 下載參與體驗。

評估 🎯

評估模型是微調過程的關鍵部分，有助於瞭解模型的性能以及與其他模型的比較情況。以下是GenZ 70B的一些關鍵評估：

基準比較

模型名稱	MT Bench	MMLU	Human Eval	BBH
Genz 13B	6.12	53.62	17.68	37.76
Genz 13B v2	6.79	53.68	21.95	38.1
Genz 70B	7.33	70.32	37.8	54.69

MT Bench分數

MT Bench分數是評估模型性能的關鍵指標，它提供了對模型在一系列任務上性能的全面評估。

為什麼選擇GenZ？ 💡

與預訓練模型相比，GenZ經過精心微調，使用了精心策劃的數據集，因此具有額外的技能和能力。無論是簡單任務還是複雜項目，GenZ都能應對挑戰。

團隊致力於不斷改進GenZ，通過定期使用各種精心策劃的數據集進行微調，以達到並超越現有技術水平。文檔中提供了詳細的評估和性能細節，用戶可以自行比較。選擇GenZ，一起推動大語言模型的邊界。

GenZ 70B模型卡片 📄

模型詳情：

開發者：Bud Ecosystem
基礎預訓練模型類型：Llama V2 70B
模型架構：GenZ 70B是在Llama V2 70B基礎上微調的自迴歸語言模型，採用了優化的Transformer架構。微調過程採用了監督微調（SFT）。
許可證：該模型可根據自定義商業許可證進行商業使用。更多信息，請訪問：Meta AI模型和庫下載

預期用途 💼

直接使用

GenZ 70B旨在作為大語言模型研究的強大工具，也是進一步針對特定用例進行專業化和微調的優秀基礎，例如文本摘要、文本生成、聊天機器人創建等。

超出範圍的使用 🚩

在未充分評估風險和採取緩解措施的情況下用於生產環境。
任何可能被認為不負責任或有害的用例。
以任何違反適用法律法規（包括貿易合規法律）的方式使用。
以任何違反Llama 2可接受使用政策和許可協議的方式使用。

請記住，GenZ 70B與任何大語言模型一樣，是在代表網絡的大規模語料庫上進行訓練的，因此可能存在常見的在線刻板印象和偏見。

建議 🧠

建議GenZ 70B的用戶針對感興趣的特定任務集進行微調。在任何生產使用中應採取適當的預防措施和保障措施。負責任地使用GenZ 70B是充分發揮其潛力並維護安全和尊重環境的關鍵。

訓練詳情 📚

微調訓練數據

在微調過程中，使用了精心策劃的數據集，包括來自OpenAssistant的指令微調數據集和Thought Source的思維鏈（CoT）方法數據集。這種多樣化的數據源有助於增強模型在一系列任務上的能力。

超參數

超參數	值
熱身比例	0.04
學習率調度器類型	餘弦
學習率	2e-5
訓練輪數	3
每個設備的訓練批次大小	4
梯度累積步數	4
精度	FP16
優化器	AdamW

展望未來 👀

團隊對GenZ的未來充滿期待，致力於不斷改進和增強模型，並期待開源社區能夠基於這些模型構建出更多優秀的應用。相信通過合作，能夠共同推動大語言模型的發展。這只是一個開始，相信這個旅程將徹底改變大語言模型的世界。邀請大家一起加入這個令人興奮的旅程，共同探索AI的無限可能。

🔧 技術細節

GenZ 70B是在Llama V2 70B基礎上微調的自迴歸語言模型，採用了優化的Transformer架構。微調過程採用了監督微調（SFT）。在微調過程中，使用了精心策劃的數據集，包括來自OpenAssistant的指令微調數據集和Thought Source的思維鏈（CoT）方法數據集。超參數設置如下：