🚀 QwQ-32B-ArliAI-RpR-v4
QwQ-32B-ArliAI-RpR-v4是基於QwQ模型微調的角色扮演推理模型,減少了重複內容,增加了訓練序列長度,適用於長對話場景。
🚀 快速開始
你可以在 https://arliai.com 訪問該模型。同時,我們也有一個模型排名頁面 https://www.arliai.com/models-ranking。
✨ 主要特性
RpR v4 版本的改進
- 減少重複和模仿:為了增強RpR v3的創造性和跳出常規思維的能力,採用了更先進的過濾方法,以去除大語言模型重複相似短語或代用戶發言的示例。若出現重複或模仿情況,這是由於基礎QwQ模型的訓練方式所致,而非RpR數據集的問題。
- 增加訓練序列長度:將訓練序列長度增加到16K,以提高模型在長對話中的感知和記憶能力。
RpR 系列概述:基於RPMax的推理能力構建
RpR(RolePlay with Reasoning)是ArliAI推出的一系列新模型。該系列直接基於為RPMax系列開發的成功數據集整理方法和訓練方法。
- 數據集使用:RpR模型使用了與RPMax相同的經過整理和去重的角色扮演和創意寫作數據集,注重多樣性,以確保高創造性並減少跨上下文重複。熟悉RPMax的用戶會發現其獨特的、不重複的寫作風格,這與其他為角色扮演微調的模型不同。
- 推理數據集的創建:由於現有的指令和創意寫作推理數據集每個示例只有一個響應,在長多輪對話中會導致輸出質量下降。因此,Arli AI決定創建一個能夠進行長多輪對話推理的真實角色扮演模型。為了創建RpR,首先將現有的優質RPMax數據集重新處理成推理數據集。通過使用基礎QwQ指令模型為RPMax數據集中的每個對話示例創建推理過程,然後進一步優化,確保推理與數據集中的實際響應示例一致。
- 訓練方式:為了確保模型在推理時遇到推理塊的方式與訓練時相同,即不在上下文中看到推理塊,訓練過程使用了axolotl和無手動模板的分段數據集。這樣訓練出的QwQ模型在長多輪角色扮演對話中能夠產生連貫且有趣的輸出,這是我們所知的第一個真正經過正確訓練的用於角色扮演和創意寫作的推理模型。
📚 詳細文檔
模型描述
QwQ - 32B - ArliAI - RpR - v4是RpR系列的第三個版本。它是一個320億參數的模型,基於精心整理的RPMax數據集,使用RpR數據集進行微調,結合了在長多輪對話中保持推理能力的技術。
推薦採樣器
- RpR模型與重複懲罰類型的採樣器配合效果不佳,即使是更先進的採樣器,如XTC或DRY。
- 它在簡單的採樣器設置下效果最佳,並且允許進行長時間的推理(高最大令牌數)。
- 你也可以下載本倉庫文件部分上傳的ST主導出文件。
推薦首先使用以下設置:
- 溫度(Temperature):1.0
- 最小概率(MinP):0.02
- TopK:40
- 響應令牌數(Response Tokens):2048+
規格參數
屬性 |
詳情 |
基礎模型 |
QwQ - 32B |
最大上下文長度 |
使用Yarn時最大128K(與基礎QwQ相同,原生為32K) |
參數數量 |
32B |
是否為推理模型 |
是 |
訓練詳情
- 序列長度:16384
- 訓練輪數:1輪(繼承自RPMax方法)
- 微調方法:RS - QLORA+(秩穩定LoRA + LoRA Plus 8x)
- 秩/阿爾法(Rank/Alpha):128 - 秩 128 - 阿爾法
- 學習率:0.00001
- 調度器:Rex
- 梯度累積:32
訓練圖表

量化版本
- BF16:[https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4](https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4)
- GGUF:[https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4 - GGUF](https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4 - GGUF)
在ST中正確使用推理模型的方法

對於一般的推理模型,你需要確保設置如下:
- 前綴僅設置為
<think>
,後綴僅設置為 </think>
,且無空格或換行符。
- 回覆以
<think>
開頭。
- 取消勾選“始終添加角色名稱”。
- “包含名稱”設置為“從不”。
- 聊天模板應符合所使用的模型。
⚠️ 重要提示
推理模型只有在“包含名稱”設置為“從不”時才能正常工作,因為它們總是期望用戶回合的結束符(eos token)後跟 <think>
標記,以便在輸出響應之前開始推理。如果啟用“包含名稱”,則會在末尾附加角色名稱,如“Seraphina:<eos_token>”,這會使模型混淆是應該先響應還是先推理。
如果看不到推理內容包裹在思考塊中,可能是設置仍然錯誤,未遵循示例,或者你的ST版本過舊,不支持推理塊自動解析。如果整個響應都在推理塊中,則 <think>
和 </think>
推理標記的後綴和前綴可能有額外的空格或換行符,或者該模型不是足夠智能的推理模型,無法始終將推理內容放在這些標記之間。
正確設置後的效果

RPMax 基礎(數據集和訓練理念)
目標:減少重複和提高創造性
用於RPMax和RpR的數據集整理目標是減少重複,並提高模型在不同場景下進行創意寫作的能力。這意味著模型在不同情況下輸出的響應差異很大,不會陷入可預測的套路。
重複和創造性的定義
- 創造性:指模型能夠產生的輸出多樣性,不應將創造性與優美的寫作風格混淆。一個寫作風格優美的模型不一定是有創造性的模型。
- 重複的類型:
- 上下文內重複:指模型在單個對話中重複相同的短語。例如,模型多次提及角色“甩了甩頭髮然後……”。這種重複在某些情況下可能是有意的,用於突出角色特徵,因此消除這種重複並不總是能提高模型的寫作能力。RPMax和RpR目前尚未專注於消除這種類型的重複,因此輸出中可能會出現一些上下文內重複。
- 跨上下文重複:指模型在非常不同的情況下重複相同的短語或套路。例如,在不同的對話中重複“我脊樑骨發涼”這樣的短語。這種重複是有害的,表明模型過度擬合了訓練數據集中的“創意寫作”風格。模型在寫作故事時傾向於選擇相似的重複名稱,如“elara”和“whispering woods”,也是跨上下文重複的表現。RPMax和RpR數據集整理的主要目標是通過減少跨上下文重複來創建一個高度創造性的模型。
數據集整理
基於該數據集訓練的模型(包括RPMax和現在的RpR)的成功歸功於訓練方法和為微調創建的獨特數據集。該數據集包含儘可能多的開源創意寫作和角色扮演數據集(均來自Hugging Face),並經過整理,剔除了純合成生成的數據集,因為這些數據集往往會降低模型的性能,使模型學習到類似GPT的風格,而不是有所幫助。然後使用Llama 3.1 8B(或類似能力的模型)創建數據集中所描繪的角色和場景的數據庫,用於對這些數據集進行去重,確保每個角色或場景只有一個條目。
微調的黃金法則
與預訓練階段不同,微調模型的黃金法則不是數據量,而是質量優於數量。因此,這裡使用的數據集實際上比包含重複角色和場景的數據集小几個數量級,但最終得到的模型不會讓人感覺只是另一個創意寫作/角色扮演模型的“近親繁殖”。
訓練參數和非常規方法
通常的訓練方法是使用低學習率和高梯度累積,以獲得更好的損失穩定性,並進行多輪訓練,直到損失可接受。然而,RPMax和RpR方法僅使用一輪訓練、低梯度累積和高於正常水平的學習率。訓練過程中的損失曲線不穩定,波動較大,但平滑後會隨時間穩定下降。理論上,這允許模型從數據集中的每個單獨示例中學習更多,並且通過不使用多輪訓練讓模型多次看到相同的示例,避免模型過度依賴和強化單個角色或故事套路。訓練過程中損失的波動是因為模型在訓練新條目時,從未見過類似示例,因此無法預測與示例條目相似的答案。相對較高的最終損失(1.0或略高)是可以接受的,因為目標不是創建一個輸出與訓練數據集完全相同的模型,而是創建一個有足夠創造性來形成自己響應風格的模型。
💡 試用建議
模型偏好因人而異,建議你親自試用QwQ - 32B - ArliAI - RpR - v4。無論好壞,你的反饋都非常有價值,將有助於我們改進未來的RPMax和RpR模型。你可以在 https://arliai.com 訪問該模型,也可以在我們的新Discord服務器 https://discord.com/invite/t75KbPgwhk 或Reddit子版塊 https://www.reddit.com/r/ArliAI/ 提問。
模型圖片
圖片使用Arli AI圖像生成工具生成 [https://www.arliai.com/image - generation](https://www.arliai.com/image - generation)
📄 許可證
本項目採用Apache - 2.0許可證。