🚀 wanabi-24B (預覽版)
wanabi-24B 是一款專門為小說寫作輔助進行微調的大規模語言模型的 預覽版。該模型基於 mistralai/Mistral-Small-24B-Base-2501,使用日語小說相關文本數據進行訓練。尤其擅長小說創意構思、根據設定生成正文以及按照上下文續寫等任務。
🚀 快速開始
此模型強烈建議與專用桌面應用程序 Project Wannabe 配合使用。Project Wannabe 提供了一個圖形用戶界面(GUI),可充分發揮 wanabi-24B 的能力,無縫支持從創意生成到正文寫作以及持續生成(無限生成)等功能。使用 Project Wannabe 時,用戶無需關注下文所述的提示詞格式,即可輕鬆利用模型的各項功能。
✨ 主要特性
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
以下是不同任務的提示詞格式示例:
本文生成 (GEN)
<s>[INST] 請根據以下信息生成小說正文。
# 標題:
異世界轉生後成了野狗這件事
# 關鍵詞:
異世界轉生
狗 [/INST] {生成的正文} </s>
<s>[INST] 請自由生成一篇小說。 [/INST] {生成的正文} </s>
續文生成 (CONT)
<s>[INST] 請根據參考信息續寫以下文章。
【正文】
原以為被路人刺死了,沒想到轉生到異世界成了野狗。
【參考信息】
標題:
異世界轉生後成了野狗這件事
關鍵詞:
異世界轉生
狗
放逐
<s>[INST] 請續寫以下文章。
【正文】
原以為被路人刺死了,沒想到轉生到異世界成了野狗。
創意生成 (IDEA)
<s>[INST] 請根據以下信息生成一個完整的小說創意(標題、關鍵詞、體裁、梗概、設定、情節)。
# 關鍵詞:
異世界轉生
狗 [/INST] # 標題:
異世界轉生後成了野狗這件事
# 關鍵詞:
異世界轉生
狗
放逐
戀愛
NTR
# 體裁:
異世界幻想
低魔幻想
# 梗概:
原以為被路人刺死了,沒想到轉生到異世界成了野狗。起初絕望無比,但被善良的少女收留...
# 設定:
故事背景是一個劍與魔法的中世紀風格異世界。主人公擁有現代知識,卻被困在狗的身體裡。
# 情節:
與少女相遇 -> 城裡的騷亂 -> 主人公特殊能力覺醒 -> 面臨放逐危機 -> ... </s>
<s>[INST] 請自由生成一個小說創意(標題、關鍵詞、體裁、梗概、設定、情節)。 [/INST] {生成的完整創意} </s>
高級用法
在推理時,建議使用與訓練時相同的 mistral_small
模板格式 (<s>[INST] {指令} {輸入} [/INST] {輸出} </s>
),以獲得更好的生成效果。
📚 詳細文檔
訓練詳情
基礎模型
訓練框架
訓練方法
- QLoRA (4-bit)
lora_rank
: 128
lora_alpha
: 256
lora_dropout
: 0
lora_target
: all(所有線性層)
- 精度:bf16
- 優化:
- PagedAdamW (8-bit)
- Flash Attention 2
- Unsloth Gradient Checkpointing (
use_unsloth_gc: true
)
- Liger Kernel (
enable_liger_kernel: true
)
- 訓練參數:
learning_rate
: 3.0e-5
lr_scheduler_type
: cosine_with_restarts (num_cycles: 5)
warmup_ratio
: 0.03
- 其他:
cutoff_len
: 32768
per_device_train_batch_size
: 1
gradient_accumulation_steps
: 24
訓練數據與任務
使用日語小說相關文本數據,進行了以下三種主要任務形式的指令微調(SFT):
- 本文生成 (GEN):根據給定的指示和可選的元數據(標題、關鍵詞、體裁、梗概、設定、情節)生成小說正文。
- 續文生成 (CONT):根據給定的正文和可選的元數據續寫小說。
- 創意生成 (IDEA):根據部分或無元數據生成一個完整的小說創意,包括標題、關鍵詞、體裁、梗概、設定和情節。
🔧 技術細節
本模型使用 mistral_small
模板格式進行訓練和推理,這種格式有助於模型更好地理解用戶的指令和輸入,從而生成更符合要求的輸出。
📄 許可證
本模型遵循 Apache-2.0 許可證(基於基礎模型,如有需要可進行更改)。
⚠️ 重要提示
- Alpha 版本:本模型為開發中的預覽版,性能和穩定性無法保證。
- 偏差問題:由於訓練數據的特性,生成的內容可能會偏向特定的體裁、表達方式和情節發展。
- 不適當內容:訓練數據包含多種文本,可能會生成不適合未成年人閱讀或引起不適的內容。
- 質量限制:生成文本的多樣性、連貫性和上下文跟隨能力存在一定限制,尤其是在生成較長文本時可能會出現問題。
- 使用注意:本模型僅用於研究和實驗目的,用戶有責任遵守適用的法律法規。嚴禁將其用於非法目的或侵犯他人權利。
- 自擔風險:開發者對使用本模型產生的任何結果不承擔任何責任,請用戶自行承擔使用風險。
💡 使用建議
在使用本模型時,建議結合 Project Wannabe 應用程序,以獲得更好的使用體驗。同時,由於模型處於預覽版階段,生成結果可能存在一定的不穩定性,用戶可根據實際需求對生成內容進行適當調整。
未來計劃
- 原計劃的預覽版追加學習版已廢止,preview_plus 是同一數據集的最後一個模型。
- 目前正在使用包含評分、臺詞量、作者註釋的數據集進行訓練。
- wanabi-24B vX:正在使用擴展數據集進行 SFT 訓練,並將逐步發佈。
(路線圖可能會發生變化)