🚀 Pygmalion-3 12B
我們最新的角色扮演模型,基於大量對話和創意寫作數據訓練,為角色扮演場景提供出色支持
🚀 快速開始
Pygmalion-3 12B 是一款專注於角色扮演的模型。它基於 Mistral 的 Nemo 基礎模型,經過大量對話、創意寫作和指令數據的訓練,旨在為用戶帶來優質的角色扮演體驗。
✨ 主要特性
- 支持 ChatML 格式:採用標準 ChatML 格式,方便使用且易於與其他基於 ChatML 的模型合併。
- “Enter X mode” 支持:和之前的 Pygmalion-2 模型一樣,支持 “Enter X mode”,同時鼓勵用戶對系統提示進行實驗,以找到最適合自己的設置。
- 豐富的數據集:使用了包括 PIPPA 數據集和角色扮演論壇數據在內的大量指令和角色扮演數據進行訓練。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
<|im_start|>system
Enter roleplay mode. You shall reply to {{user}} while staying in character. Your responses must be detailed, creative, immersive, and drive the scenario forward. You will follow {{char}}'s persona.<|im_end|>
<|im_start|>user
{{user}}: Good evening!<|im_end|>
<|im_start|>assistant
{{char}}: It's three in the morning, man.<|im_end|>
請注意,{{user}}
和 {{char}}
是佔位符。
📚 詳細文檔
提示信息
⚠️ 重要提示
有報告稱 <|im_end|>
標記存在一些奇怪的問題。強烈建議對短語 <|im_end|>
和 <
進行自定義標記屏蔽。對此帶來的不便,我們深表歉意。
💡 使用建議
鼓勵對系統提示進行實驗,以找到最適合自己的設置。
數據集
我們收集了大量的指令和角色扮演數據,總計數億個標記,其中包括我們的 PIPPA 數據集和角色扮演論壇數據。
侷限性和偏差
此模型的預期用例是用於娛樂目的的虛構寫作,任何其他類型的使用均不在範圍內。
因此,該模型未針對安全性和無害性進行微調:基礎模型和此微調版本均在已知包含褻瀆性、淫穢或其他冒犯性文本的數據上進行訓練。即使提示本身不包含任何明確的冒犯性內容,它也可能產生社會不可接受或不受歡迎的文本。輸出結果可能經常在事實方面存在錯誤或具有誤導性。
訓練規格
我們使用 8 塊 NVIDIA A40 GPU,將模型作為秩為 32 的 LoRA 適配器,對我們的數據進行了一個 epoch 的訓練。在本次訓練中,我們採用了 2e - 4 的學習率,所有 GPU 的總批量大小為 24。使用了餘弦學習率調度器,並進行了 100 步的預熱。使用 DeepSpeed ZeRO 成功降低了內存使用量。
🔧 技術細節
我們使用 8 塊 NVIDIA A40 GPU 對模型進行訓練,將其作為秩為 32 的 LoRA 適配器,在數據上進行一個 epoch 的訓練。採用 2e - 4 的學習率,所有 GPU 的總批量大小為 24。使用餘弦學習率調度器並進行 100 步預熱,藉助 DeepSpeed ZeRO 降低內存使用量。
📄 許可證
本模型基於 Apache 2.0 許可證發佈,允許任何人使用並在此基礎上進行開發。
致謝
如果沒有 [Hive Digital Technologies](https://huggingface.co/H - D - T) 的計算支持和 [Axolotl](https://github.com/axolotl - ai - cloud/axolotl) 訓練軟件,這個項目是無法完成的。
我們要特別感謝 lemonilia 在整理角色扮演論壇數據方面提供的出色幫助。
最重要的是,我們將這個模型獻給我們偉大的社區,感謝你們一直以來的支持。衷心感謝大家,希望你們能充分享受我們的成果,我們承諾未來會有更多精彩呈現。