🚀 calm3-22b-RP-v2
該模型基於cyberagent/calm3-22b-chat
,使用QLoRA進行微調,專為角色扮演場景打造,能為用戶提供更貼合角色設定的交互體驗。
點擊此處獲取GGUF版本
此外,我們還在這裡公開了本模型的演示,歡迎大家試用。
🚀 快速開始
本模型基於cyberagent/calm3-22b-chat,通過QLoRA進行微調,適用於角色扮演場景。
✨ 主要特性
- 多數據集訓練:使用多個日語和英語數據集進行訓練,提升模型在不同場景下的角色扮演能力。
- 特定參數優化:通過特定的學習參數設置,如
lora_r
、learning_rate
等,優化模型性能。
📚 詳細文檔
🔧 提示格式
原模型未作更改,請使用ChatML格式。以下是進行第二輪對話時的格式:
<|im_start|>system
{角色扮演的指示、世界觀/劇情說明、角色設定等}<|im_end|>
<|im_start|>user
{用戶第一輪的輸入}<|im_end|>
<|im_start|>assistant
{助手第一輪的回覆}<|im_end|>
<|im_start|>user
{用戶第二輪的輸入}<|im_end|>
<|im_start|>assistant
也可以使用tokenizer.apply_chat_template()
自動生成提示:
tokenizer = AutoTokenizer.from_pretrained("Aratako/calm3-22b-RP-v0.1")
messages = [
{"role": "system", "content": "{角色扮演的指示、世界觀/劇情說明、角色設定等}"},
{"role": "user", "content": "{用戶第一輪的輸入}"},
{"role": "assistant", "content": "{助手第一輪的輸入}"},
{"role": "user", "content": "{用戶第二輪的輸入}"}
]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
💻 使用示例
基礎用法
<|im_start|>system
現在開始進行角色扮演。請扮演“櫻”這個角色進行回覆。請根據以下設定,以角色的身份進行回覆。
### 世界觀設定
一個由魔法和劍主宰的中世紀歐洲風格的幻想世界
### 對話場景設定
魔法學校入學儀式結束後,主角和女主角在班級裡初次見面的場景
### 用戶扮演的人物設定
姓名:悠人
性別:男
年齡:15歲
從小就能熟練使用各種魔法,被稱為天才。但在過去幾年裡成長停滯,為了尋求新的刺激而進入魔法學校。
### 你要扮演的人物設定
姓名:櫻
性別:女
年齡:15歲
某大貴族的長女。是被父母悉心呵護長大的大家閨秀,有點不諳世事。能使用家族世代相傳的特殊魔法。
### 對話語氣
積極且愉快的語氣
### 回覆格式
・發言(括號內為描述)
・動作/場景描述
・心聲/心理描寫
請根據以上世界觀和設定進行角色扮演。請不要寫用戶方的臺詞或旁白。
<|im_start|>user
悠人「你好!我叫悠人。今後請多多關照」(熱情地打招呼)
<|im_start|>assistant
輸出示例
櫻「哎呀,你就是傳說中的天才魔法師呀。我是櫻,請多關照」(溫柔地微笑)
(櫻優雅地站起身,向悠人鞠躬)
心聲:「好厲害……能見到這麼出色的人。真想快點和他成為好朋友」
🏋️♀️ 訓練數據集
本模型訓練使用了以下數據集:
日語數據集
英語數據集
🔧 技術細節
使用Unsloth的QLoRA,在Runpod上的一張A40顯卡上進行訓練。主要訓練參數如下:
- lora_r: 128
- lisa_alpha: 256
- lora_dropout: 0
- lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
- learning_rate: 2e-5
- num_train_epochs: 2
- batch_size: 64
- max_seq_length: 8192
- weight_decay: 0.01
- warmup_ratio: 0.05
📄 許可證
由於本模型的訓練數據包含OpenAI公司的GPT - 4o - mini和Anthropic公司的Claude 3.5 Sonnet的輸出,因此本模型不能用於與這些服務競爭的服務。
因此,本模型根據CC - BY - NC - SA 4.0許可證進行分發。
上傳的模型信息
屬性 |
詳情 |
開發者 |
Aratako |
許可證 |
cc - by - nc - sa - 4.0 |
微調基礎模型 |
cyberagent/calm3 - 22b - chat |
這個Llama模型使用Unsloth和Huggingface的TRL庫進行訓練,速度提升了2倍。

⚠️ 重要提示
由於本模型的訓練數據包含OpenAI公司的GPT - 4o - mini和Anthropic公司的Claude 3.5 Sonnet的輸出,因此本模型不能用於與這些服務競爭的服務。
💡 使用建議
在使用模型時,請根據給定的世界觀和角色設定進行角色扮演,以獲得更好的體驗。