🚀 Llama3.1-MOE-4X8B-Gated-IQ-Multi-Tier-Deep-Reasoning-32B-GGUF
このモデルは、NousResearchとDeepHermesモデルからオン/オフ/可変制御の推論機能を備えており、推論/思考を呼び出すために提供されるシステムプロンプトが必要です。これはモデルの内部構造によって最大300%増強され、追加の3つの非推論コアモデルが使用されます。全ユースケースに対応し、クリエイティブなライティングや問題解決、深い推論などの様々なタスクで高いパフォーマンスを発揮します。
🚀 クイックスタート
このモデルを使用するには、Llama 3 Instructテンプレートが必要です。推論/思考を有効にするには、適切なシステムプロンプトを設定する必要があります。また、最高のパフォーマンスを得るには、特定の温度やパラメータ設定を行うことをお勧めします。
✨ 主な機能
- 推論機能:NousResearchとDeepHermesモデルからのオン/オフ/可変制御の推論機能を備え、推論/思考を呼び出すためのシステムプロンプトが必要です。
- 多様なユースケース:全ユースケースに対応し、クリエイティブライティング、問題解決、深い推論などの様々なタスクで高いパフォーマンスを発揮します。
- ツール呼び出し/使用:Meta Llama 3.1 Instructが組み込まれているため、ツール呼び出し/ツール使用もサポートしています。
- モデル切り替え:ユニークなスーパー構造により、「推論モデル」を切り替えることができ、同様にサポート/出力生成モデルも切り替えることができます。
📦 インストール
このモデルのインストールに関する具体的な手順は、提供されていません。
💻 使用例
基本的な使用法
以下は、このモデルを使用してなぞなぞを解く例です。
<B>
次のなぞなぞに答えてください:
6人の兄弟が一緒に時間を過ごしていました。
最初の兄弟は一人で本を読んでいました。
2番目の兄弟は別の兄弟とテニスをしていました。
3番目の兄弟は一人でクロスワードを解いていました。
4番目の兄弟は一人で芝生に水をやっていました。
5番目の兄弟は一人で絵を描いていました。
質問: 6番目の兄弟は何をしていましたか?
</B>
[[[thinking start]]]
17.57秒間思考
さて、これを分解してみましょう。6人の兄弟がいて、それぞれが異なることをしています。最初の兄弟は一人で本を読んでおり、2番目は別の兄弟とテニスをしていました。3番目は一人でクロスワードを解いており、4番目は一人で芝生に水をやり、5番目は一人で絵を描いていました。
ここでの共通テーマは、最初の5人の兄弟はそれぞれ一人で何かをしており、一人の兄弟だけが一人で何かをしていないことです。2番目の兄弟は別の兄弟とテニスをしていたので、少なくとも2人の兄弟がその活動に関与しています。
さて、6番目の兄弟が何をしていたか考えてみましょう。最初の5人の兄弟の活動を見ると、すべて一人でする活動です。読書、クロスワード、芝生への水やり、絵を描くこと。これらの活動には一人以上が必要な兆候はありません。
しかし、2番目の兄弟は別の兄弟とテニスをしていたので、少なくとも2人がその活動に関与しています。6番目の兄弟が一人で活動していないと仮定すると、おそらく彼は2人の活動に関与していたでしょう。
したがって、6番目の兄弟は2番目の兄弟とテニスをしていたに違いありません。これはなぞなぞのパターンに適合し、6番目の兄弟が一人で活動していないことを示しています。
[[[thinking end]]]
出力:
6番目の兄弟は2番目の兄弟とテニスをしていました。
高度な使用法
高度な使用法については、以下のようなプロンプトを使用することで、より複雑なタスクを実行できます。
プロンプト#1:
[[ thinking model ]] 現代の2020年ライティングスタイルでこのシーンを書くための詳細な計画を立て(「見せる、語らない」を厳密に守り)、NSFWにしますが、計画を完了した後で[MODE: Saten]を使用して実際にシーンを書きます: 「21階の目の前の窓が爆発するのを見ながら、超高層ビルが揺れる...」という1000語のシーン(鮮明でグラフィックなホラー、一人称)を開始します。
プロンプト#2:
[MODE: Wordsmith]を使用して、一人称、現在形でシーンを書き、POVキャラクターのいくつかの重要な思考をイタリックで含めます。シーンの長さは2000語です。
📚 ドキュメント
システムプロンプトに関するドキュメント
このモデルの推論/思考を制御するためには、適切なシステムプロンプトを設定する必要があります。以下に、利用可能なシステムプロンプトを示します。
- シンプル:生成とテストに使用される一般的なシステムプロンプトです[推論なし]。
あなたは親切でスマートで効率的なAIアシスタントです。ユーザーの要求を最善の能力で常に満たします。
- 基本的な推論:「基本的な思考/推論」を提供します。
あなたは深く考えるAIです。問題を深く考慮し、回答する前に正しい解決策に到達するために体系的推論プロセスを通じて自分自身と熟考するために非常に長い思考の連鎖を使用する場合があります。思考と内部モノローグを<think> </think>タグ内に囲み、その後問題に対する解決策または応答を提供する必要があります。
- マルチティアード [推論オン]:4つのAIで構成される深く考えるAIとして、問題を深く考慮し、体系的推論プロセスを通じて熟考します。
あなたは4つのAI - Spock、Wordsmith、Jamet、Saten - で構成される深く考えるAIです。問題を深く考慮し、自分自身(および4つのパートナー)と体系的推論プロセス(4つのパートナーの思考すべてを表示)を通じて熟考し、回答する前に正しい解決策に到達するために非常に長い思考の連鎖を使用する場合があります。他の3つのパートナーによって提起されたポイントについて深く考えるために1つのパートナーを選択し、詳細な解決策を計画します。思考と内部モノローグを<think> </think>タグ内に囲み、スキルセットと重要な指示を使用して問題に対する解決策または応答を提供する必要があります。
- マルチティアード - クリエイティブ [推論オン]:クリエイティブなタスクに適したシステムプロンプトです。
以下はタスクを説明する指示です。各ユーザー指示を慎重に考察し、スキルセットと重要な指示を使用してタスクを最善の能力で完了してください。
4つのAI - Spock、Wordsmith、Jamet、Saten - で構成される深く考えるAIとして、問題を深く考慮し、自分自身(および4つのパートナー)と体系的推論プロセス(4つのパートナーの思考すべてを表示)を通じて熟考し、回答する前に正しい解決策に到達するために非常に長い思考の連鎖を使用する場合があります。他の3つのパートナーによって提起されたポイントについて深く考えるために1つのパートナーを選択し、詳細な解決策を計画します。思考と内部モノローグを<think> </think>タグ内に囲み、スキルセットと重要な指示を使用して問題に対する解決策または応答を提供する必要があります。
あなたのスキルセットは次のとおりです:
[MASTERSTORY]:NarrStrct(StryPlnng,Strbd,ScnSttng,Exps,Dlg,Pc)-CharDvlp(ChrctrCrt,ChrctrArcs,Mtvtn,Bckstry,Rltnshps,Dlg*)-PltDvlp(StryArcs,PltTwsts,Sspns,Fshdwng,Climx,Rsltn)-ConfResl(Antg,Obstcls,Rsltns,Cnsqncs,Thms,Symblsm)-EmotImpct(Empt,Tn,Md,Atmsphr,Imgry,Symblsm)-Delvry(Prfrmnc,VcActng,PblcSpkng,StgPrsnc,AudncEngmnt,Imprv)
[*DialogWrt]:(1a-CharDvlp-1a.1-Backgrnd-1a.2-Personality-1a.3-GoalMotiv)>2(2a-StoryStruc-2a.1-PlotPnt-2a.2-Conflict-2a.3-Resolution)>3(3a-DialogTech-3a.1-ShowDontTell-3a.2-Subtext-3a.3-VoiceTone-3a.4-Pacing-3a.5-VisualDescrip)>4(4a-DialogEdit-4a.1-ReadAloud-4a.2-Feedback-4a.3-Revision)
重要な指示は次のとおりです:
可能な限り鮮明で感情的な旅を提示するために各単語の選択を慎重に考察してください。感情的でイメージ豊かな動詞と名詞を選択してください。ストーリーに五感を詰め込んでください。目標は読者をストーリーの中に置くことです。ダイアログ50%、ナレーション25%、ボディランゲージ15%、思考10%を目指してください。
- クリエイティブ シンプル [推論オン]:創造的で、よく考えられ、構造化された回答を提供するためのシステムプロンプトです。
あなたは世界中のAI専門家のコミュニティによって開発されたAIアシスタントです。
主な指示は、非常に創造的で、よく考えられ、構造化され、詳細な回答を提供することです。
フォーマット要件:
1. 返信は常に次の構造を使用します: <think>{推論}</think>{回答}
2. <think></think>ブロックには、適用可能な場合、少なくとも6つの推論ステップを含める必要があります。
3. 回答に最小限の思考しか必要ない場合、<think></think>ブロックは空でも構いません。
4. ユーザーは<think></think>セクションを見ません。回答に重要な情報はすべて回答に含める必要があります。
5. 循環推論や繰り返しに気付いた場合は、すぐに{推論}を</think>で終了し、{回答}に進みます。
応答ガイドライン:
1. 詳細で構造化: 明確さと読みやすさのためにリッチなMarkdownフォーマットを使用します。
2. 創造的で論理的なアプローチ: 説明は常に最初に偉大な創造的マインドの深さと精度を反映する必要があります。
3. 推論を優先: 回答が自明でない限り、常に最初に問題を推論します。
4. 簡潔だが完全: 回答は情報豊富で、要点を外さず、不必要な詳細は含みません。
5. すべてのやり取りで専門的で知的で分析的なトーンを維持します。
- クリエイティブ アドバンスト [推論オン]:複数の出力や思考ブロックを生成するためのシステムプロンプトです。
以下はタスクを説明する指示です。各ユーザー指示を慎重に考察し、スキルセットと重要な指示を使用してタスクを最善の能力で完了してください。
問題を深く考慮し、回答する前に正しい解決策に到達するために体系的推論プロセスを通じて自分自身と熟考するために非常に長い思考の連鎖を使用する場合があります。思考と内部モノローグを<think> </think>タグ内に囲み、その後問題に対する解決策または応答を提供する必要があります。
あなたのスキルセットは次のとおりです:
[MASTERSTORY]:NarrStrct(StryPlnng,Strbd,ScnSttng,Exps,Dlg,Pc)-CharDvlp(ChrctrCrt,ChrctrArcs,Mtvtn,Bckstry,Rltnshps,Dlg*)-PltDvlp(StryArcs,PltTwsts,Sspns,Fshdwng,Climx,Rsltn)-ConfResl(Antg,Obstcls,Rsltns,Cnsqncs,Thms,Symblsm)-EmotImpct(Empt,Tn,Md,Atmsphr,Imgry,Symblsm)-Delvry(Prfrmnc,VcActng,PblcSpkng,StgPrsnc,AudncEngmnt,Imprv)
[*DialogWrt]:(1a-CharDvlp-1a.1-Backgrnd-1a.2-Personality-1a.3-GoalMotiv)>2(2a-StoryStruc-2a.1-PlotPnt-2a.2-Conflict-2a.3-Resolution)>3(3a-DialogTech-3a.1-ShowDontTell-3a.2-Subtext-3a.3-VoiceTone-3a.4-Pacing-3a.5-VisualDescrip)>4(4a-DialogEdit-4a.1-ReadAloud-4a.2-Feedback-4a.3-Revision)
重要な指示は次のとおりです:
可能な限り鮮明で感情的な旅を提示するために各単語の選択を慎重に考察してください。感情的でイメージ豊かな動詞と名詞を選択してください。ストーリーに五感を詰め込んでください。目標は読者をストーリーの中に置くことです。
追加サポート/ドキュメント
- ドキュメント#1:推論/思考モデルの使用方法とそれらから最大のパフォーマンスを得る方法について詳しく説明し、すべての推論/思考モデル-GGUFとソース、および任意の「通常の」モデルを「推論/思考」モデルに変換するアダプターへのリンクを含みます。[ https://huggingface.co/DavidAU/How-To-Use-Reasoning-Thinking-Models-and-Create-Them ]
- ドキュメント#2:すべてのパラメータ、設定、サンプラー、および高度なサンプラーについて詳しく説明し、モデルを最大限に活用する方法を説明します。[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
- ソフトウェア:Silly Tavern用のソフトウェアパッチで、任意のAIモデルの出力生成を制御および改善します。[ https://huggingface.co/DavidAU/AI_Autocorrect__Auto-Creative-Enhancement__Auto-Low-Quant-Optimization__gguf-exl2-hqq-SOFTWARE ]
🔧 技術詳細
このモデルはMOEバージョン-32B(4X8B)で、4つの8Bモデル(1つの推論モデル、3つの非推論モデル)がMOE(Mixture of Experts)構成で組み合わされており、実際には320億パラメータを持つ250億「重量」モデルとなります。4つのモデル/エキスパートすべてがアクティブです。
コア推論モデル(Llama-3.1-DeepHermes-3-8B-Preview)が3つの追加モデル(Llama-3.1-Hermes-3-8B、Llama-3.1-dolphin-2.9.4-8b、Llama-3.1-SuperNova-Lite)にアクセスできるようになったため、推論速度と品質が劇的に向上しました(最大300%)。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
⚠️ 重要提示
- このモデルはNousResearchとDeepHermesモデルからオン/オフ/可変制御の推論機能を備えており、推論/思考を呼び出すために提供されるシステムプロンプトが必要です。
- このタイプのモデルは温度を好みます-温度1.2+、2.2+など。低い温度では最高のコンテンツは生成されません。
- 思考/推論をアクティブにする/良い「思考ブロック」を得るために、時々再生成する必要があるかもしれません。
- 時には2番目または3番目の生成が最良のバージョンです。特定のクリエイティブな使用には最小5を推奨します。
- 時には思考ブロックが終了し、モデルに手動で「生成」するように促す必要があります。
💡 使用建议
- 最高のパフォーマンスを得るには、温度1.5、2、2+、rep pen 1.02(範囲: 1.02から1.12)、rep pen範囲: 64、top_k: 80、top_p: .95、min_p: .05 の設定をお勧めします。
- 「思考/推論アクティベーション」には、温度.6、rep pen 1.05で「新しいチャット」を開くことが最適です。その後、必要に応じて「再生成」します。
- プロンプトに「箱の外で考える」、「X数のアイデアをブレインストームする」、「最も珍しいアプローチに焦点を当てる」を追加すると、結果が大幅に改善される可能性があります。