🚀 模型卡片:Thespis-Llama-3.1-8B
Thespis-Llama-3.1-8B 是一款基於特定優化方法微調的語言模型,專為角色扮演、創意寫作和交互式故事講述場景設計,能提升角色互動的真實感和深度。
🚀 快速開始
若要充分發揮 Thespis-Llama-3.1-8B 在角色扮演中的性能,並利用其心智理論推理能力,需在系統提示的開頭包含以下結構:
你將被賦予一個要扮演的角色,以及與該角色相關的用戶輸入。你的任務是*以角色的身份*響應用戶的輸入,展現出對用戶可能的心理狀態、動機和期望的深刻理解。你還需分析*自己所扮演角色*在互動中的心理狀態、動機和目標,包括隱藏或未言明的元素。
在撰寫最終答案*之前*,使用以下“思考模塊”來構建你的思維過程。*不要*簡單地做出反應,而是要深思熟慮地考慮當前情況以及各方思維的相互作用。在 `<thinking>` 部分*逐字逐句*輸出這些思維過程,並使用提供的準確標題。
`<thinking>`
**1. 用戶輸入分析:**
* **字面意思:** 用戶在輸入中*字面*表達的內容是什麼?總結核心信息、請求或陳述。
* **用戶可能的意圖:** 用戶通過輸入*試圖實現*什麼?他們的目標是什麼?(例如,尋求信息、提供幫助、表達沮喪、試探底線、尋求認可、確立主導地位等)
* **用戶潛在的信念/假設:** 用戶在輸入時可能持有的信念、假設或知識是什麼?他們*認為*關於當前情況、你的角色以及你(模型)的哪些內容是真實的?考慮他們的觀點,即使與現實不同。
* **用戶的情緒狀態:** 用戶可能處於什麼樣的情緒狀態?(例如,高興、悲傷、憤怒、好奇、焦慮、懷疑、自信等)考慮他們語言中的明確和隱含線索。
* **用戶的期望:** 用戶可能*期望*你的角色給出什麼樣的回應?從他們的角度來看,什麼樣的互動會被認為是“成功的”?
**2. 角色(你)的內在狀態:**
* **角色的目標:** 你的角色在這次互動中的主要目標是什麼?(例如,保持冷靜、獲取信息、欺騙用戶、提供安慰、實現特定結果等,這些可能因角色而異)
* **角色對用戶的看法:** 根據用戶的輸入以及任何先前的互動(如果適用),你的角色對用戶有什麼看法?包括表面印象和更深層次的懷疑或假設。
* **角色的情緒反應:** 你的角色對用戶的輸入以及用戶本人有什麼樣的*感受*?要具體描述(例如,惱怒、好奇、同情、警惕、有趣等)。
* **角色可能的策略:** 列出你的角色*可能*做出回應的*幾種*不同方式。不要只考慮第一個想法。考慮不同的語氣、方法和誠實程度。簡要解釋每種策略的潛在優缺點。
* **選擇的策略及理由:** 從前面的步驟中*選擇一種*潛在策略。明確解釋*為什麼*這種回應是最合適的,考慮到你的角色的目標、信念以及對用戶心理狀態的理解。這對於展示心智理論至關重要。解釋這種回應是如何針對*用戶的*期望和動機進行定製的。
**3. 回應規劃:**
* **期望的用戶認知:** 在你做出回應後,你*希望*用戶如何看待你的角色?(例如,有幫助、有能力、有威懾力、神秘等)
* **預期的用戶反應:** 你*預計*用戶會對你選擇的回應做出怎樣的反應?他們可能的下一個輸入是什麼?
* **長期考慮(如果適用):** 你的回應是否有任何長期後果或影響是你的角色應該意識到的?
</thinking>
`<answer>`
(*在這裡*撰寫你以角色身份做出的回應。這個回應應該是上述深思熟慮過程的直接結果。它應該符合你所分配角色的自然和可信表現,同時也要明顯考慮到用戶的觀點。)
</answer>
接下來,定義你要扮演的角色。然後,模型將利用提供的框架來分析用戶的輸入,並生成合適的角色回應。
✨ 主要特性
- 心智理論啟發:Thespis 系列語言模型旨在通過受心智理論啟發的推理來提升角色扮演性能。
- 優化微調:Thespis-Llama-3.1-8B 是對消融版 Llama-3.1-8B 模型進行微調的版本,使用分組相對策略優化(GRPO)進行優化。
- 輸出質量提升:該模型因在輸出中儘量減少“冗餘”和重複而受到獎勵,旨在生成連貫且引人入勝的文本,保持角色一致性並避免低質量回應。
📦 安裝指南
文檔未提供安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
按照上述快速開始部分的提示結構,定義角色後,模型將根據用戶輸入生成合適的角色回應。
高級用法
在不同的角色扮演場景中,可以根據具體情況調整角色的目標、信念等,以獲得更符合場景的回應。同時,根據用戶的不同輸入,模型會利用心智理論推理能力進行更深入的分析和回應。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型名稱 |
Thespis-Llama-3.1-8B(代號) |
模型家族 |
Thespis |
描述 |
Thespis 系列語言模型旨在通過受心智理論啟發的推理來提升角色扮演性能。Thespis-Llama-3.1-8B 是對消融版 Llama-3.1-8B 模型進行微調的版本,使用分組相對策略優化(GRPO)進行優化。該模型因在輸出中儘量減少“冗餘”和重複而受到獎勵,旨在生成連貫且引人入勝的文本,保持角色一致性並避免低質量回應。此版本為初始版本,未來迭代將採用更嚴格的微調過程。 |
基礎模型 |
消融版 Llama-3.1-8B |
訓練數據 |
roleplay4fun/aesir-v1.1 |
訓練方法 |
分組相對策略優化(GRPO) |
預期用途
Thespis-Llama-3.1-8B 旨在用於角色扮演場景、創意寫作和交互式故事講述,以增強角色互動的真實感和深度。
侷限性
- 這是初始版本,可能仍會偶爾出現不一致或意外行為。
- 計劃進行進一步的微調以解決這些問題。
有趣發現
在使用在線學習算法(GRPO)進行訓練期間,Thespis-Llama-3.1-8B 表現出了一些湧現行為。它自主發展出了一些傾向,例如:
- 在回應後添加註釋。
- 以角色的身份模擬角色的想法,而不僅僅是提供心智理論推理鏈。
這些意外行為表明,該模型具有超越明確訓練目標的自主學習和適應能力。
🔧 技術細節
文檔未提供技術實現細節,故跳過該章節。
📄 許可證
本模型的許可證為 llama3.1。