🚀 Slush模型介紹
Slush 是一款經過特殊訓練的模型,採用兩階段訓練方式,並使用高LoRA丟棄率。該模型旨在提升創造力和寫作能力,同時增強角色扮演能力。
模型相關資源

(GGUFs)
🚀 快速開始
模型特點
Slush 是一個兩階段訓練的模型,在第一階段對基礎模型進行預訓練延續,以提升模型的創造力和寫作能力。之後將其合併到指令調整模型中,第二階段在此基礎上進行微調,進一步增強其角色扮演能力,並修復第一階段合併可能造成的問題。
參數建議
在測試過程中,使用的參數為:溫度(temp)1,最小概率(min - p)0.1,動態響應因子(DRY)0.8。
✨ 主要特性
訓練數據
- crestf411/LimaRP - DS
- Gryphe/Sonnet3.5 - Charcard - Roleplay
- anthracite - org/c2_logs_32k_mistral - v3_v1.2_no_system
- anthracite - org/kalo - opus - instruct - 22k - no - refusal - no - system
- anthracite - org/kalo - opus - instruct - 3k - filtered - no - system
- anthracite - org/nopm_claude_writing_fixed
基礎模型
- mistralai/Mistral - Nemo - Instruct - 2407
兩階段訓練
- 第一階段(預訓練延續):目標為 mistralai/Mistral - Nemo - Base - 2407,將得到的LoRA合併到 mistralai/Mistral - Nemo - Instruct - 2407 中。使用LoRA丟棄率0.5、LoRA秩64、alpha 128,學習率採用餘弦退火策略4e - 6等。
- 第二階段(微調):目標為第一階段的模型,進一步增強其角色扮演能力。
遵循預設
第二階段與 Sunfall 系列類似,遵循Silly Tavern預設(Mistral V2 & V3,V3 - Tekken也適用),使用其他工具或預設時效果可能不同。
🔧 技術細節
訓練細節
第一階段(繼續預訓練)
- 目標:mistralai/Mistral - Nemo - Base - 2407(得到的LoRA合併到 mistralai/Mistral - Nemo - Instruct - 2407)
- LoRA丟棄率:0.5 (動機)
- LoRA秩:64,alpha 128 (動機)
- 學習率:餘弦退火4e - 6
- LoRA+ 學習率比率:15
- 上下文大小:16384
- 梯度累積步數:4
- 訓練輪數:1
第二階段(微調)
- 目標:第一階段模型
- LoRA丟棄率:0.5
- LoRA秩:32,alpha 64
- 學習率:餘弦退火5e - 6(最小值5e - 7)
- LoRA+ 學習率比率:15
- 上下文大小:16384
- 梯度累積步數:4
- 訓練輪數:2
合併細節
合併方法
該模型使用 TIES 合併方法,以 mistralai/Mistral - Nemo - Base - 2407 為基礎進行合併。
配置
以下是用於生成該模型的YAML配置:
models:
- model: stage1-on-instruct
parameters:
weight: 1
density: 1
- model: stage2-on-stage1
parameters:
weight: 0.7
density: 1
- model: mistralai/Mistral-Nemo-Instruct-2407
parameters:
weight: 1
density: 1
merge_method: ties
base_model: mistralai/Mistral-Nemo-Base-2407
parameters:
weight: 1
density: 1
normalize: true
int8_mask: true
tokenizer_source: mistralai/Mistral-Nemo-Instruct-2407
dtype: bfloat16
注意事項
該模型仍處於早期階段,歡迎提供反饋,但不接受追求完美的要求。