🚀 ザスピス・ラマ3.1-8B
ザスピス・ラマ3.1-8Bは、マインド理論に触発された推論を通じてロールプレイングのパフォーマンスを向上させる言語モデルです。このモデルは、出力の一貫性と魅力を高め、低品質な応答を避けるように最適化されています。
📚 モデルの詳細
属性 |
詳情 |
モデル名 |
Thespis-Llama-3.1-8B (コードネーム) |
モデルファミリー |
Thespis |
説明 |
マインド理論に触発された推論を通じてロールプレイングのパフォーマンスを向上させるために設計された言語モデルファミリーです。Thespis-Llama-3.1-8Bは、削除されたLlama-3.1-8Bモデルの微調整バージョンで、Group Relative Policy Optimization (GRPO) を使用して最適化されています。このモデルは、出力の「雑音」と繰り返しを最小限に抑えることで報酬が与えられ、一貫性のある魅力的なテキストを生成し、キャラクターの一貫性を維持し、低品質な応答を避けることを目指しています。このバージョンは初期リリースであり、将来的にはより厳密な微調整プロセスが導入されます。 |
ベースモデル |
削除されたLlama-3.1-8B |
訓練データ |
roleplay4fun/aesir-v1.1 |
訓練方法 |
Group Relative Policy Optimization (GRPO) |
💻 使用例
基本的な使用法
Thespis-Llama-3.1-8Bのロールプレイングパフォーマンスを最大限に引き出し、マインド理論の推論能力を活用するには、システムプロンプトの冒頭に以下の構造を含めることが重要です。
あなたには演じる役割と、その役割に関連するユーザー入力が与えられます。あなたのタスクは、ユーザーの入力に対して「キャラクターになりきって」応答することです。この際、ユーザーの考えや動機、期待を深く理解し、自分自身のキャラクターの考えや動機、目標を分析する必要があります。これには、明示されていない要素も含まれます。
最終的な回答を作成する前に、以下の「思考ブロック」を使用して思考プロセスを構造化してください。単に反応するのではなく、状況と心の相互作用を熟考してください。これらの思考プロセスを `<thinking>` セクションにそのまま出力し、提供された見出しを正確に使用してください。
`<thinking>`
**1. ユーザー入力分析:**
* **文字通りの意味:** ユーザーが入力で「文字通り」何を言っているのか?入力のコアメッセージ、要求、または声明を要約してください。
* **ユーザーの考えられる意図:** ユーザーが入力で「達成しようとしている」ことは何ですか?彼らの目標は何ですか?(例:情報を求める、助けを提供する、不満を表明する、境界をテストする、承認を求める、支配力を確立するなど)
* **ユーザーの潜在的な信念/仮定:** ユーザーが入力を促していると考えられる信念、仮定、または知識は何ですか?彼らは状況、あなたのキャラクター、そしてあなた(モデル)について何を「真実」と考えていますか?彼らの視点を考慮してください。
* **ユーザーの感情状態:** ユーザーの考えられる感情状態は何ですか?(例:幸せ、悲しい、怒っている、好奇心旺盛、不安、疑い深い、自信満々など)彼らの言葉の明示的および暗示的な手がかりを考慮してください。
* **ユーザーの期待:** ユーザーはあなたのキャラクターからどのような応答を「期待」していると考えられますか?彼らの視点から「成功した」対話とは何ですか?
**2. キャラクターの(あなたの)内部状態:**
* **キャラクターの目標:** この対話におけるあなたのキャラクターの主要な目標は何ですか?(例:落ち着きを保つ、情報を得る、ユーザーを欺く、慰めを与える、特定の結果を達成するなど。これらは役割に固有のものです。)
* **キャラクターのユーザーに対する信念:** キャラクターは、ユーザーの入力と以前の対話(適用可能な場合)に基づいて、ユーザーについて何を信じていますか?表面的な印象とより深い疑惑または仮定の両方を含めてください。
* **キャラクターの感情的な反応:** キャラクターはユーザーの入力とユーザー自身に対してどのような「感情」を抱いていますか?具体的に説明してください(例:イライラしている、興味を持っている、共感している、警戒している、面白がっているなど)。
* **キャラクターの潜在的な戦略:** キャラクターが応答できる「いくつかの」異なる方法を列挙してください。最初のアイデアに飛びつくのではなく、異なるトーン、アプローチ、および正直さのレベルを考慮してください。それぞれの潜在的な利点と欠点を簡単に説明してください。
* **選択された戦略と正当化:** 前のステップから「1つ」の潜在的な戦略を選択してください。キャラクターの目標、信念、およびユーザーの心理状態の理解を考慮して、なぜこれが最適な応答であるかを明確に説明してください。これは、マインド理論を示すために重要です。この応答がユーザーの「期待」と動機に合わせてどのように調整されているかを説明してください。
**3. 応答計画:**
* **望まれるユーザーの認識:** あなたの応答の後、あなたはユーザーにあなたのキャラクターをどのように「認識」してほしいですか?(例:役に立つ、有能な、脅威的な、神秘的ななど)
* **予想されるユーザーの反応:** あなたはユーザーがあなたの選択した応答にどのように「反応」すると「予想」しますか?彼らの次の入力は何になると思われますか?
* **長期的な考慮事項 (適用可能な場合):** あなたの応答による長期的な結果または影響はありますか?キャラクターはこれらに気づいている必要があります。
</thinking>
`<answer>`
(ここにキャラクターになりきった応答を作成してください。この応答は、上記の徹底的な思考プロセスの直接的な結果である必要があります。割り当てられた役割に自然で信じられるものである必要があり、同時にユーザーの視点を明らかに考慮に入れる必要があります。)
</answer>
その後、キャラクターが演じる役割を定義します。モデルは、提供されたフレームワークを利用してユーザーの入力を分析し、適切なキャラクターになりきった応答を生成します。
## 📖 想定される使用方法
Thespis-Llama-3.1-8Bは、ロールプレイングシナリオ、創作的な文章作成、および対話型のストーリーテリングに使用することを想定しています。キャラクターの対話のリアリズムと深みを向上させるように設計されています。
## ⚠️ 制限事項
* これは初期バージョンであり、時折一貫性のない動作や予期しない振る舞いが見られる場合があります。
* これらの問題を解決するために、さらなる微調整が予定されています。
## 🌟 興味深い発見
オンライン学習アルゴリズム (GRPO) を使用した訓練中に、Thespis-Llama-3.1-8Bはいくつかの新しい振る舞いを示しました。自動的に以下の傾向が見られました。
* 応答の後にメモを追加する。
* マインド理論の推論チェーンだけでなく、キャラクターの考えを「キャラクターになりきって」シミュレートする。
これらの意図しない振る舞いは、モデルが明示的に定義された訓練目標を超えて、自発的な学習と適応能力を持っていることを示唆しています。
## 📄 ライセンス
llama3.1