StableLM Zephyr 3B開源指令調優模型 - 基於多數據集訓練性能超棒

首頁

Stablelm Zephyr 3b GGUF

由brittlewis12開發

StableLM Zephyr 3B是一個30億參數的指令調優模型，基於公開數據集、合成數據集和直接偏好優化(DPO)訓練，性能表現優異。

大型語言模型英語開源協議:其他 #指令微調 #輕量級DPO優化 #多任務評估

下載量 51

發布時間 : 4/25/2025

模型概述

這是一個30億參數的因果語言模型，專門針對指令任務進行了優化，適用於文本生成和對話任務。

模型特點

指令調優優化

模型經過專門的指令調優訓練，能夠更好地理解和執行用戶指令

直接偏好優化(DPO)

採用直接偏好優化方法訓練，提高了模型輸出的質量和相關性

多數據集訓練

基於多個高質量數據集訓練，包括ultrachat_200k、ultrafeedback_binarized等

GGUF格式支持

提供GGUF格式模型文件，便於在各種設備上運行

模型能力

文本生成

對話系統

指令理解與執行

內容創作

使用案例

對話系統

智能助手

可作為智能對話助手使用

在AlpacaEval評估中獲得76%勝率

內容創作

文本生成

可用於生成各種類型的文本內容

🚀 StableLM Zephyr 3B GGUF

本項目包含Stability AI的StableLM Zephyr 3B模型的GGUF格式文件。StableLM Zephyr 3B是一個具有30億參數的指令微調模型，受HugginFaceH4的Zephyr 7B訓練流程啟發，該模型在多種公開可用數據集和使用直接偏好優化（DPO）生成的合成數據集上進行訓練，並基於MT Bench和Alpaca Benchmark進行評估。

🚀 快速開始

模型信息

屬性	詳情
基礎模型	stabilityai/stablelm-zephyr-3b
數據集	HuggingFaceH4/ultrachat_200k、HuggingFaceH4/ultrafeedback_binarized、meta-math/MetaMathQA、WizardLM/WizardLM_evol_instruct_V2_196k、Intel/orca_dpo_pairs
許可證	other
許可證鏈接	https://huggingface.co/stabilityai/stablelm-zephyr-3b/blob/main/LICENSE
語言	en
模型創建者	stabilityai
模型名稱	stablelm-zephyr-3b
模型類型	stablelm_epoch
推理	false
標籤	causal-lm、stablelm_epoch
管道標籤	text-generation
量化者	brittlewis12

什麼是GGUF？

GGUF是一種用於表示AI模型的文件格式。它是該格式的第三個版本，由llama.cpp團隊於2023年8月21日推出。它是GGML的替代品，目前llama.cpp已不再支持GGML。本模型使用llama.cpp b1960 (26d6076)進行轉換。

提示模板：Zephyr

<|system|>
{{system_message}}<|endoftext|>
<|user|>
{{prompt}}<|endoftext|>
<|assistant|>

📦 下載與運行

你可以在iPhone、iPad和Mac上使用cnvrs下載並運行本模型！

cnvrs.ai

cnvrs是在你的設備上運行私有本地AI的最佳應用：

創建並保存帶有自定義系統提示和溫度設置的角色
下載並試驗你可以在HuggingFace上找到的任何GGUF模型！
用自定義主題顏色打造屬於你自己的風格
由Metal ⚡️ 和 Llama.cpp 提供支持，在響應流式傳輸時帶有觸覺反饋！
今天就親自在 Testflight 上試用！
關注 cnvrs的Twitter 以獲取最新信息

📚 詳細文檔

原始模型評估

mt-bench

模型	大小	對齊方式	MT-Bench（得分）	AlpacaEval（勝率 %）
StableLM Zephyr 3B 🪁	3B	DPO	6.64	76.00
StableLM Zephyr（僅SFT）	3B	SFT	6.04	71.15
Capybara v1.9	3B	dSFT	5.94	-
MPT-Chat	7B	dSFT	5.42	-
Xwin-LM v0.1	7B	dPPO	6.19	87.83
Mistral-Instruct v0.1	7B	-	6.84	-
Zephyr-7b-α	7B	dDPO	6.88	-
Zephyr-7b-β	7B	dDPO	7.34	90.60
Falcon-Instruct	40B	dSFT	5.17	45.71
Guanaco	65B	SFT	6.41	71.80
Llama2-Chat	70B	RLHF	6.86	92.66
Vicuna v1.3	33B	dSFT	7.12	88.99
WizardLM v1.0	70B	dSFT	7.71	-
Xwin-LM v0.1	70B	dPPO	-	95.57
GPT-3.5-turbo	-	RLHF	7.94	89.37
Claude 2	-	RLHF	8.06	91.36
GPT-4	-	RLHF	8.99	95.28

任務	值
ARC（25-shot）	47.0
HellaSwag（10-shot）	74.2
MMLU（5-shot）	46.3
TruthfulQA（0-shot）	46.5
Winogrande（5-shot）	65.5
GSM8K（5-shot）	42.3
BigBench（平均）	35.26
AGI Benchmark（平均）	33.23