StableLM Zephyr 3Bオープンソース指令調整モデル - 複数のデータセットに基づく訓練で性能抜群

ホーム

Stablelm Zephyr 3b GGUF

brittlewis12によって開発

StableLM Zephyr 3Bは30億パラメータの命令チューニングモデルで、公開データセット、合成データセット、直接選好最適化(DPO)でトレーニングされ、優れた性能を発揮します。

大規模言語モデル英語オープンソースライセンス:その他 #命令ファインチューニング #軽量DPO最適化 #マルチタスク評価

ダウンロード数 51

リリース時間 : 4/25/2025

モデル概要

これは30億パラメータの因果言語モデルで、命令タスクに特化して最適化されており、テキスト生成や対話タスクに適しています。

モデル特徴

命令チューニング最適化

モデルは特別な命令チューニング訓練を受けており、ユーザーの命令をより良く理解し実行できます

直接選好最適化(DPO)

直接選好最適化手法を用いて訓練されており、モデル出力の品質と関連性が向上しています

複数データセット訓練

ultrachat_200k、ultrafeedback_binarizedなど複数の高品質データセットに基づいて訓練されています

GGUFフォーマット対応

GGUFフォーマットのモデルファイルを提供しており、様々なデバイスでの実行が容易です

モデル能力

テキスト生成

対話システム

命令理解と実行

コンテンツ作成

使用事例

対話システム

インテリジェントアシスタント

インテリジェントな対話アシスタントとして使用可能

AlpacaEval評価で76%の勝率を獲得

コンテンツ作成

テキスト生成

様々なタイプのテキストコンテンツ生成に使用可能

🚀 StableLM Zephyr 3B GGUF

このリポジトリには、Stability AIのStableLM Zephyr 3BのGGUF形式のモデルファイルが含まれています。StableLM Zephyr 3Bは、30億パラメータの命令調整モデルで、HugginFaceH4のZephyr 7Bのトレーニングパイプラインにインスパイアされ、公開されているデータセットと合成データセットを使用してトレーニングされています。

🚀 クイックスタート

このリポジトリには、Stability AIのStableLM Zephyr 3BのGGUF形式のモデルファイルが含まれています。

StableLM Zephyr 3Bは、30億パラメータの命令調整モデルで、HugginFaceH4のZephyr 7Bのトレーニングパイプラインにインスパイアされ、公開されているデータセットと合成データセットを使用してDirect Preference Optimization (DPO)でトレーニングされています。このモデルの評価は、MT BenchとAlpaca Benchmarkに基づいて行われています。

✨ 主な機能

GGUFとは？

GGUFは、AIモデルを表すファイル形式です。2023年8月21日にllama.cppチームによって導入された第3版の形式で、GGMLの代替となります。現在、llama.cppはGGMLをサポートしていません。変換にはllama.cpp b1960 (26d6076)を使用しています。

プロンプトテンプレート: Zephyr

<|system|>
{{system_message}}<|endoftext|>
<|user|>
{{prompt}}<|endoftext|>
<|assistant|>

📦 インストール

cnvrsを使ったダウンロードと実行（iPhone、iPad、Mac）！

cnvrs.ai

cnvrsは、あなたのデバイスでプライベートなローカルAIを利用するための最高のアプリです。

カスタムシステムプロンプトと温度設定でキャラクターを作成し、保存できます。
HuggingFaceで見つけた任意のGGUFモデルをダウンロードし、実験できます。
カスタムテーマカラーで独自のアプリにカスタマイズできます。
Metal ⚡️ と Llama.cpp をベースに構築され、応答ストリーミング中にハプティクスが作動します。
今日すぐTestflightで試してみてください。
Twitterでcnvrsをフォローして最新情報を得ましょう。

📚 ドキュメント

オリジナルモデルの評価:

mt-bench

モデル	サイズ	アライメント	MT-Bench (スコア)	AlpacaEval (勝率 %)
StableLM Zephyr 3B 🪁	3B	DPO	6.64	76.00
StableLM Zephyr (SFTのみ)	3B	SFT	6.04	71.15
Capybara v1.9	3B	dSFT	5.94	-
MPT-Chat	7B	dSFT	5.42	-
Xwin-LM v0.1	7B	dPPO	6.19	87.83
Mistral-Instruct v0.1	7B	-	6.84	-
Zephyr-7b-α	7B	dDPO	6.88	-
Zephyr-7b-β	7B	dDPO	7.34	90.60
Falcon-Instruct	40B	dSFT	5.17	45.71
Guanaco	65B	SFT	6.41	71.80
Llama2-Chat	70B	RLHF	6.86	92.66
Vicuna v1.3	33B	dSFT	7.12	88.99
WizardLM v1.0	70B	dSFT	7.71	-
Xwin-LM v0.1	70B	dPPO	-	95.57
GPT-3.5-turbo	-	RLHF	7.94	89.37
Claude 2	-	RLHF	8.06	91.36
GPT-4	-	RLHF	8.99	95.28

タスク	値
ARC (25-shot)	47.0
HellaSwag (10-shot)	74.2
MMLU (5-shot)	46.3
TruthfulQA (0-shot)	46.5
Winogrande (5-shot)	65.5
GSM8K (5-shot)	42.3
BigBench (平均)	35.26
AGIベンチマーク (平均)	33.23