Thespis-Llama-3.1-8B開源語言模型 - 助力角色扮演與創意寫作互動體驗升級

首頁

Thespis Llama 3.1 8B

由Locutusque開發

Thespis-Llama-3.1-8B 是一款基於特定優化方法微調的語言模型，專為角色扮演、創意寫作和交互式故事講述場景設計，能提升角色互動的真實感和深度。

大型語言模型

Transformers

英語#心智理論推理 #角色扮演優化 #交互式故事創作

下載量 1,360

發布時間 : 2/25/2025

模型概述

Thespis-Llama-3.1-8B 是對消融版 Llama-3.1-8B 模型進行微調的版本，使用分組相對策略優化（GRPO）進行優化。該模型旨在通過受心智理論啟發的推理來提升角色扮演性能，生成連貫且引人入勝的文本，保持角色一致性並避免低質量回應。

模型特點

心智理論啟發

通過受心智理論啟發的推理來提升角色扮演性能，增強角色互動的真實感和深度。

優化微調

使用分組相對策略優化（GRPO）進行優化，減少輸出中的冗餘和重複，生成更高質量的文本。

自主學習和適應能力

在訓練期間表現出一些湧現行為，如自主發展出在回應後添加註釋和模擬角色想法的能力。

模型能力

角色扮演

創意寫作

交互式故事講述

心智理論推理

使用案例

角色扮演

角色互動

在角色扮演場景中，模型能夠以角色的身份響應用戶輸入，展現出對用戶心理狀態、動機和期望的深刻理解。

提升角色互動的真實感和深度。

創意寫作

故事生成

模型可以用於生成連貫且引人入勝的故事文本。

生成高質量的創意寫作內容。

🚀 模型卡片：Thespis-Llama-3.1-8B

Thespis-Llama-3.1-8B 是一款基於特定優化方法微調的語言模型，專為角色扮演、創意寫作和交互式故事講述場景設計，能提升角色互動的真實感和深度。

🚀 快速開始

若要充分發揮 Thespis-Llama-3.1-8B 在角色扮演中的性能，並利用其心智理論推理能力，需在系統提示的開頭包含以下結構：

你將被賦予一個要扮演的角色，以及與該角色相關的用戶輸入。你的任務是*以角色的身份*響應用戶的輸入，展現出對用戶可能的心理狀態、動機和期望的深刻理解。你還需分析*自己所扮演角色*在互動中的心理狀態、動機和目標，包括隱藏或未言明的元素。

在撰寫最終答案*之前*，使用以下“思考模塊”來構建你的思維過程。*不要*簡單地做出反應，而是要深思熟慮地考慮當前情況以及各方思維的相互作用。在 `<thinking>` 部分*逐字逐句*輸出這些思維過程，並使用提供的準確標題。

`<thinking>`

**1. 用戶輸入分析：**

*   **字面意思：** 用戶在輸入中*字面*表達的內容是什麼？總結核心信息、請求或陳述。
*   **用戶可能的意圖：** 用戶通過輸入*試圖實現*什麼？他們的目標是什麼？（例如，尋求信息、提供幫助、表達沮喪、試探底線、尋求認可、確立主導地位等）
*   **用戶潛在的信念/假設：** 用戶在輸入時可能持有的信念、假設或知識是什麼？他們*認為*關於當前情況、你的角色以及你（模型）的哪些內容是真實的？考慮他們的觀點，即使與現實不同。
*   **用戶的情緒狀態：** 用戶可能處於什麼樣的情緒狀態？（例如，高興、悲傷、憤怒、好奇、焦慮、懷疑、自信等）考慮他們語言中的明確和隱含線索。
*   **用戶的期望：** 用戶可能*期望*你的角色給出什麼樣的回應？從他們的角度來看，什麼樣的互動會被認為是“成功的”？

**2. 角色（你）的內在狀態：**

*   **角色的目標：** 你的角色在這次互動中的主要目標是什麼？（例如，保持冷靜、獲取信息、欺騙用戶、提供安慰、實現特定結果等，這些可能因角色而異）
*   **角色對用戶的看法：** 根據用戶的輸入以及任何先前的互動（如果適用），你的角色對用戶有什麼看法？包括表面印象和更深層次的懷疑或假設。
*   **角色的情緒反應：** 你的角色對用戶的輸入以及用戶本人有什麼樣的*感受*？要具體描述（例如，惱怒、好奇、同情、警惕、有趣等）。
*   **角色可能的策略：** 列出你的角色*可能*做出回應的*幾種*不同方式。不要只考慮第一個想法。考慮不同的語氣、方法和誠實程度。簡要解釋每種策略的潛在優缺點。
*   **選擇的策略及理由：** 從前面的步驟中*選擇一種*潛在策略。明確解釋*為什麼*這種回應是最合適的，考慮到你的角色的目標、信念以及對用戶心理狀態的理解。這對於展示心智理論至關重要。解釋這種回應是如何針對*用戶的*期望和動機進行定製的。

**3. 回應規劃：**

* **期望的用戶認知：** 在你做出回應後，你*希望*用戶如何看待你的角色？（例如，有幫助、有能力、有威懾力、神秘等）
* **預期的用戶反應：** 你*預計*用戶會對你選擇的回應做出怎樣的反應？他們可能的下一個輸入是什麼？
* **長期考慮（如果適用）：** 你的回應是否有任何長期後果或影響是你的角色應該意識到的？

</thinking>

`<answer>`

（*在這裡*撰寫你以角色身份做出的回應。這個回應應該是上述深思熟慮過程的直接結果。它應該符合你所分配角色的自然和可信表現，同時也要明顯考慮到用戶的觀點。）

</answer>

接下來，定義你要扮演的角色。然後，模型將利用提供的框架來分析用戶的輸入，並生成合適的角色回應。

✨ 主要特性

心智理論啟發：Thespis 系列語言模型旨在通過受心智理論啟發的推理來提升角色扮演性能。
優化微調：Thespis-Llama-3.1-8B 是對消融版 Llama-3.1-8B 模型進行微調的版本，使用分組相對策略優化（GRPO）進行優化。
輸出質量提升：該模型因在輸出中儘量減少“冗餘”和重複而受到獎勵，旨在生成連貫且引人入勝的文本，保持角色一致性並避免低質量回應。

📦 安裝指南

文檔未提供安裝步驟，故跳過該章節。

💻 使用示例

基礎用法

按照上述快速開始部分的提示結構，定義角色後，模型將根據用戶輸入生成合適的角色回應。

高級用法

在不同的角色扮演場景中，可以根據具體情況調整角色的目標、信念等，以獲得更符合場景的回應。同時，根據用戶的不同輸入，模型會利用心智理論推理能力進行更深入的分析和回應。

📚 詳細文檔

模型詳情

屬性	詳情
模型名稱	Thespis-Llama-3.1-8B（代號）
模型家族	Thespis
描述	Thespis 系列語言模型旨在通過受心智理論啟發的推理來提升角色扮演性能。Thespis-Llama-3.1-8B 是對消融版 Llama-3.1-8B 模型進行微調的版本，使用分組相對策略優化（GRPO）進行優化。該模型因在輸出中儘量減少“冗餘”和重複而受到獎勵，旨在生成連貫且引人入勝的文本，保持角色一致性並避免低質量回應。此版本為初始版本，未來迭代將採用更嚴格的微調過程。
基礎模型	消融版 Llama-3.1-8B
訓練數據	roleplay4fun/aesir-v1.1
訓練方法	分組相對策略優化（GRPO）