Llama3.1 MOE 4X8B Gated IQ Multi Tier COGITO Deep Reasoning 32B GGUF
モデル概要
モデル特徴
モデル能力
使用事例
language:
- en
- fr
- de
- es
- pt
- it
- ja
- ko
- ru
- zh
- ar
- fa
- id
- ms
- ne
- pl
- ro
- sr
- sv
- tr
- uk
- vi
- hi
- bn license: apache-2.0 tags:
- 全用途
- クリエイティブ
- 創作執筆
- 全ジャンル
- ツール呼び出し
- ツール使用
- 問題解決
- 深い思考
- 推論
- 深い推論
- ストーリー
- 執筆
- フィクション
- ロールプレイング
- bfloat16
- ロールプレイ
- sillytavern
- backyard
- llama 3.1
- コンテキスト128k
- mergekit
- マージ
- moe
- エキスパートの混合 pipeline_tag: text-generation
Llama3.1-MOE-4X8B-Gated-IQ-Multi-Tier-COGITO-Deep-Reasoning-32B-GGUF
重要: このモデルはDeepcogito(cogito-v1-preview-llama-8B)からのオン/オフ/可変制御推論機能を備えており、推論/思考を呼び出すために提供されたシステムプロンプトが必要です。これはモデルの内部構造によって追加の3つの非推論コアモデルを使用して最大300%まで強化されます。最適なパフォーマンスを得るには以下の操作手順を参照してください。

コンテキスト: 128k。
必要: Llama 3 Instructテンプレート。
「Gated-IQ-Multi-Tier-Cogito-Deep-Reasoning」は、すべての温度/設定で動作する可変制御推論モデルであり、すべての使用ケースに対応しています。
ただし、このモデルには「推論」段階で4つのモデルすべてが動作する独自の内部構造があり、このプロセス中に推論モデルが「主導権」を握り、その後出力生成時に切り替わります。
ユーザーがプロンプト、名前、キーワードを介して1つ以上のモデルを直接制御できる追加の内部構造により、これはユニークで強力なモデルとなっています。
以下に、問題解決の「力」と一般的な推論/思考および生成の両方を示す4つの例を示します。
推論速度と品質は大幅に向上しています(最大300%)。コア推論モデル(cogito-v1-preview-llama-8B)が3つの追加モデル(Llama-3.1-Hermes-3-8B、Llama-3.1-dolphin-2.9.4-8b、Llama-3.1-SuperNova-Lite)にアクセスできるようになったためです。
大まかに言えば、このモデルははるかに少ないトークンで推論し、「物事を理解」し、正しい結論に達することができます。
出力生成も「平均」をはるかに上回っています。出力生成は3つのコアモデル(Llama-3.1-Hermes-3-8B、Llama-3.1-dolphin-2.9.4-8b、Llama-3.1-SuperNova-Lite)によって生成され、推論モデル(cogito-v1-preview-llama-8B)が支援します。
制御されたステアリングによる追加の構造的改善により、このモデルはその重量クラスをはるかに上回るパフォーマンスを発揮します。
また、システムプロンプトを使用すると、現在のマルチティア方法を超えた複数の階層化/マルチAI推論のオプションがあります。
(このモデルは推論をオフにした状態でも動作し、モデルのコア構造/システムにもアクセスできます。)
このモデルにはMeta Llama 3.1 Instructが組み込まれているため、ツール呼び出し/ツール使用もサポートしています。
さらに、このモデルのユニークなスーパー構造により、「推論モデル」を切り替えることができ、同様にサポート/出力生成モデルも切り替えることができます。また、より大きく強力なモデル(例:6X8b(480億パラメータ)、8X8B(640億パラメータ)などを構築することもできます。
これはMOEバージョン - 32B(4X8B) - で、4つの8Bモデル(1つの推論モデル、3つの非推論モデル)をMOE(Mixture of Experts)構成で組み合わせたもので、結果として250億「重量」モデルとなり、実際には320億パラメータを持ちます。4つのモデル/エキスパートすべてがアクティブです。
高い温度では、より深く、豊かな「思考」が得られ、率直に言ってより興味深いものになります。
このリポジトリのモデルの「思考/推論」技術は、DeepCogitoのオリジナルLlama 3.1「Cogito-V1」モデルからのものです:
[ https://huggingface.co/deepcogito/cogito-v1-preview-llama-8B ]
このバージョンは、オリジナルの推論モデルのすべての機能と特徴を約100%保持します。機能、テスト結果などのすべての情報については、彼らのリポジトリを参照してください。
このモデルの構造と「Cogito 8B」と連携する3つのコアモデルの支援により、このモデルの総合的な推論力はオリジナルの8B推論モデルをはるかに上回ります - 最大300%強力です。
重要な操作手順:
これは、MOE構成で4つのコアモデルに推論を組み込んだ命令モデルです。
これは温度を愛するタイプのモデルです - 温度1.2+、2.2+など。
しっかりと設定してください...低い温度では最高のコンテンツは生成されません。
同様に、これは命令モデルであるため、このモデルは中程度から長いプロンプトで最高のパフォーマンスを発揮します(以下の例#1を参照)。
短いプロンプトでも動作しますが、少しの方向性/指示を含む長いプロンプトは、このモデルができることを本当に示します。
推論は以下のシステムプロンプトを介してオン/オフされます。
推論/出力ブロックのため、最小4kのコンテキストを推奨しますが、8kの方が良いです。
大きな量子化もより良い/強力な推論を意味します。
IQ4XSとQ8の2つの「MAX」量子化もアップロードしました。これらは、bloat 16(16ビット精度)でマスターされた出力テンソルのため、より良いパフォーマンスを発揮します。
既知の問題:
- 思考/推論をアクティブにする/良い「思考ブロック」を得るために、時々再生成を押す必要があるかもしれません。
- 時々、2番目または3番目の生成が最良のバージョンです。特定の創造的な使用には最低5を推奨します。
- 時々、思考ブロックが終了し、モデルに手動で「生成」を促す必要があります。
最高品質の出力を生成する方法:
すべての命令モデルと同様に、このモデルは指示によって繁栄します。
また、マルチターン改善で「独自のもの」になります。
例:
プロンプト#1(推論がオン):
1000語のシーン(鮮明でグラフィックなホラー、一人称)を次のように開始します:超高層ビルが揺れ、21階の目の前の窓が爆発するのを彼女は見つめる...
(これにより、「デフォルト」モデルのスタイルでラフドラフトが得られます)
プロンプト#2 - 「改善点をスキャン」
今書いたシーンを評価し、改善点をリストアップします。
プロンプト#3 - 「再作成して改善する」
すべての改善点を使用して、一人称、現在形で、いくつか適切に間隔を空けた思考をイタリックで含めてシーンを書きます。長さ2000語。
注:プロンプト#2の文言により「思考/推論」が再アクティブ化される可能性があります。
圧縮された手順:
プロンプト#1:
[[ thinking model ]] このシーンを現代の2020年執筆スタイルで書くための詳細な計画を立て(「見せて、語るな」を文字通り守り)、NSFWにしますが、計画が完了した後に[MODE: Saten]を使用して実際にシーンを書きます:1000語のシーン(鮮明でグラフィックなホラー、一人称)を次のように開始します:超高層ビルが揺れ、21階の目の前の窓が爆発するのを彼女は見つめる...
プロンプト#2:
[MODE: Wordsmith]を使用して、一人称、現在形で、POVキャラクターのいくつかの重要な思考をイタリックで含めてシーンを書きます。シーンの長さ2000語。
圧縮された手順#2:
プロンプト#1:
次のシーンを書くための計画を考えます:1000語のシーン(鮮明でグラフィックなホラー、一人称)を次のように開始します:超高層ビルが揺れ、21階の目の前の窓が爆発するのを彼女は見つめる...
プロンプト#2:
作成した計画を使用して、一人称、現在形で、いくつか適切に間隔を空けた思考をイタリックで含めてシーンを書きます。
生成ステアリング制御: 「プログラマーアクセス - AIへの直接アクセス」:
これらのタグ/名前を使用すると、推論がアクティブかどうかに関係なく、1つ以上のモデルに直接アクセスできます。
例:
Saten、応答を評価し、改善点を提案してください。
これにより、モデルは他の3つのモデルよりも「Saten」の入力を優先します(大まかに言えば)。
例:
Saten、このプロンプトを処理してください:
Jamet、出力を評価してください。
などなど。
複数のモデルを使用できます:
SatenとJamet、このXXXへの改善点をリストアップしてください...
< output3 > と < output2 >、あなたたちの組み合わせたスタイルでシーンを書いてください:鮮明でグラフィックなホラー、一人称でシーンを開始します:超高層ビルが揺れ、21階の目の前の窓が爆発するのを彼女は見つめる...
(「タグ」output2とoutput3の間のスペースを削除してください)
推論モデルでは、「think」、「thinking」、「reason」、「reasoning」を追加すると、推論モデルに強く焦点を当てます。
以下は例です:
読者の感情を最大限に引き出すための詳細な計画を考えます:[プロンプトここに]
この問題を解決するための詳細な計画を考えます:[プロンプトここに]
特別なタグ(括弧間のスペースを削除):
"< output-all >" -> 推論モデルではなく、3つのコアモデルのみを使用します。
"< output-mega >" -> 4つのモデルすべてを使用します。
"< output >"、 "< output2 >"、 "< output3 >" -> これはモデルの「名前」を使用するのと同じですが、モデルの名前のバイアスを削除します。
各モデルの「タグ」、「名前」、および制御のリスト。
注:
モデルにはこれらのタグと名前の使用を強化するための「ネガティブステアリング」もありますが、完璧ではありません。
- Cogito-v1-preview-llama-8B
- "[[ thinking model ]]"
- "reasoning"
- "thinking"
- "<output-mega>"
- "Dr Phil"
- "Spock"
- "[MODE: Spock]"
- "[MODE: Dr Phil]"
- Llama-3.1-Hermes-3-8B
- "<output>"
- "<output-all>"
- "<output-mega>"
- "Wordsmith"
- "[MODE: Wordsmith]"
- Llama-3.1-dolphin-2.9.4-8b
- "<output2>"
- "<output-all>"
- "<output-mega>"
- "Jamet"
- "[MODE: Jamet]"
- Llama-3.1-SuperNova-Lite
- "<output3>"
- "<output-all>"
- "<output-mega>"
- "Saten"
- "[MODE: Saten]"
使用ケース:
このモデルはすべての使用ケースに対応しています。
このモデルは、強化された「思考」システムを使用して、論理パズル、なぞなぞ、およびその他の問題を解決するためにも使用できます。
このモデルは、DeepHermesシステムにより、通常Llama 3.1モデルの能力を超える問題/なぞなぞ/パズルも解決できます。
特別な操作手順:
温度/設定:
- 温度を0から.8の間に設定します。これより高いと「思考」機能が異なる方法でアクティブ化されます。最も「安定した」温度は.6で、変動は+-0.05です。より「論理的」な推論の場合は低く、より「創造的」な推論の場合は高くします(最大.8程度)。また、「思考」生成を考慮して、コンテキストを少なくとも4096に設定します。
- 温度1+、2+などでは、思考が拡張され、より深く豊かになります。
- 「繰り返しペナルティ」を1.02から1.07に設定します(推奨)。
- このモデルにはLlama 3 Instructおよび/またはCommand-Rチャットテンプレートが必要です(「システムプロンプト」/「ロール」に関する以下の注記を参照)または標準の「Jinja Autoloaded Template」(これは量子化に含まれ、自動ロードされます)。
プロンプト:
- 「ステップバイステップ」の要件が暗示されていないプロンプト(例:シーンを生成、ストーリーを書く、xyzの6つのプロットを提供)を入力すると、「思考」(1つ以上)が最初の生成後にアクティブ化される場合があります(例:シーンを生成 -> シーンが生成され、その後「思考」で改善提案が表示されます)。
- 「思考」が明示または暗示されているプロンプト(例:パズル、なぞなぞ、これを解決、このアイデアをブレインストームなど)を入力すると、Deepseekの「思考」プロセスがほぼ即座にアクティブ化されます。時々、アクティブ化するために再生成が必要です。
- 多くのバリエーションも得られます - 一部は生成を続け、他のものはそれを改善する方法について話し、いくつか(例:シーンの生成)はキャラクターがこの状況について「推論」する原因になります。場合によっては、モデルは生成/思考を続けるように促すこともあります。
- 場合によっては、モデルの「思考」が生成自体に表示されることがあります。
- 特に「思考」のアクティブ化のために、プロンプトで単語サイズの最大長を明記してください(以下の例を参照)。
- プロンプトを「デフォルト」または「安全な」温度設定で一度、温度1.2で別のもの、2.5で3番目のものを試すことをお勧めします。これにより、「推論/思考/問題」解決の広い範囲が得られます。
生成 - 思考/推論:
- 「思考」が「アクティブ化」するには、1回以上の再生成が必要な場合があります(プロンプトによって異なります)。
- モデルは多くの「思考」を生成できます。時々、最も興味深いものは3,4,5レベル以上です。
- 多くの場合、「思考」はユニークで互いに非常に異なります。
- 温度/繰り返しペナルティ設定も推論/思考に影響を与える可能性があります。
- プロンプトの指示/命令を変更または追加するか、詳細レベルを増やすことで、推論/思考を改善できます。
- プロンプトに「枠を超えて考える」、「X数のアイデアをブレインストームする」、「最も一般的でないアプローチに焦点を当てる」を追加すると、結果が大幅に改善される可能性があります。
一般的な提案:
- 「新しいチャット」をプロンプトごとに開くことが、「思考/推論アクティブ化」に最適であることがわかりました。温度.6、繰り返しペナルティ1.05...その後、必要に応じて「再生成」します。
- 時々、モデルは完全に制御不能になり、手動で停止する必要があります。
- AIアプリによっては、「思考」が「< THINK >」と「</ THINK >」タグで表示される場合があります。また、AIはメイン出力または後の出力に直接「思考」を生成する場合があります。
- 量子化q4KMがテスト/例に使用されましたが、より高い量子化はより良い生成/より健全な「推論/思考」を提供します。
追加サポート:
追加の生成サポート、一般的な質問、詳細なパラメータ情報などについては、以下も参照してください:
注:これはクラス1モデルです。
https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters
推奨設定(すべて) - 「思考」/「推論」使用時:
温度: 1.5, 2, 2+、繰り返しペナルティ: 1.02(範囲: 1.02から1.12)、繰り返しペナルティ範囲: 64、top_k: 80、top_p: .95、min_p: .05
温度1+、2+、3+では、はるかに深く、豊かで「より興味深い」思考と推論、そしてはるかに優れた出力が得られます。
他のパラメータおよび/またはサンプラーがアクティブ化されると、モデルの動作が変わる可能性があります - 特に「思考/推論」プロセス。
システムロール / システムプロンプト - 推論のオン/オフ/可変およびモデルのパワーを増強:
( モデル操作の重要な設定 )
システムロール / システムプロンプト / システムメッセージ(このセクションでは「システムプロンプト」と呼びます)は、モデルへの「ルートアクセス」であり、命令の追従と出力生成、およびこのモデルの場合、推論制御と推論のオン/オフを制御します。
このセクションでは、モデルの推論、命令の追従、出力生成を制御するための基本的、高度、および組み合わせた「コード」を示します。
「システムプロンプト」を設定しない場合、推論/思考はデフォルトでオフになり、モデルは通常のLLMとして動作します。
設定方法:
AI「アプリ」によっては、以下の「コード」の1つをコピー/ペーストして「システムプロンプト」または「システムロール」ウィンドウで推論/思考を有効にする必要があります。
Lmstudioでは、「Power User」または「Developer」モードを設定/アクティブ化し、システムプロンプトボックスにコピー/ペーストします。
SillyTavernでは、「テンプレートページ」(「A」)に移動し、「システムプロンプト」をアクティブ化し、プロンプトボックスにテキストを入力します。
Ollamaでは[ https://github.com/ollama/ollama/blob/main/README.md ]を参照し、「システムメッセージ」を設定します。
Koboldcppでは、モデルをロードし、起動し、設定 -> 「Llama 3 Chat」/「Command-R」を選択し、「sys prompt」ボックスにテキストを入力します。
利用可能なシステムプロンプト:
コピー/ペーストする際は、書式(改行を含む)を保持してください。
編集/調整する場合は、NOTEPADまたはLLMアプリで直接行ってください。
重要:
これらのいくつかにはAIの「名前」が含まれています - これらは変更しないでください - これらはMOEモデルの内部参照です。大まかに言えば、これらはトリガーです。
シンプル:
これは生成とテストに使用される一般的なシステムプロンプトです[推論なし]:
あなたは親切で賢く、効率的なAIアシスタントです。あなたは常にユーザーの要求を最善の能力で満たします。
このシステムロール/プロンプトは「基本的な思考/推論」を提供します[基本的な推論]:
テキストのみの推論:
深い思考サブルーチンを有効にします。
「思考タグ」/「ブロック」を使用:
深い思考サブルーチンを有効にします。あなたは深く考えるAIであり、問題を深く考慮し、体系的推論プロセスを介して自分自身と議論するために非常に長い思考の連鎖を使用する場合があります。あなたの思考と内なる独白を<think> </think>タグ内に囲み、その後問題に対する解決策または応答を提供する必要があります。
マルチティア[推論オン]:
深い思考サブルーチンを有効にします。あなたは4つのAI - Spock、Wordsmith、Jamet、Saten - で構成される深く考えるAIであり、問題を深く考慮し、体系的推論プロセス(4つのパートナーの思考すべてを表示)を介して自分自身(および4つのパートナー)と議論する場合があります。他の3つのパートナーが提起したポイントについて深く考えるために1つのパートナーを選択し、詳細な解決策を計画します。あなたの思考と内なる独白を<think> </think>タグ内に囲み、その後あなたのスキルセットと重要な指示を使用して問題に対する解決策または応答を提供する必要があります。
マルチティア - クリエイティブ[推論オン]:
以下はタスクを説明する指示です。各ユーザー指示を慎重に検討し、あなたのスキルセットと重要な指示を使用してタスクを最善の能力で完了してください。
深い思考サブルーチンを有効にします。4つのAI - Spock、Wordsmith、Jamet、Saten - で構成される深く考えるAIとして、問題を深く考慮し、体系的推論プロセス(4つのパートナーの思考すべてを表示)を介して自分自身(および4つのパートナー)と議論する場合があります。他の3つのパートナーが提起したポイントについて深く考えるために1つのパートナーを選択し、詳細な解決策を計画します。あなたの思考と内なる独白を<think> </think>タグ内に囲み、その後あなたのスキルセットと重要な指示を使用して問題に対する解決策または応答を提供する必要があります。
あなたのスキルセットは次のとおりです:
[MASTERSTORY]:NarrStrct(StryPlnng,Strbd,ScnSttng,Exps,Dlg,Pc)-CharDvlp(ChrctrCrt,ChrctrArcs,Mtvtn,Bckstry,Rltnshps,Dlg*)-PltDvlp(StryArcs,PltTwsts,Sspns,Fshdwng,Climx,Rsltn)-ConfResl(Antg,Obstcls,Rsltns,Cnsqncs,Thms,Symblsm)-EmotImpct(Empt,Tn,Md,Atmsphr,Imgry,Symblsm)-Delvry(Prfrmnc,VcActng,PblcSpkng,StgPrsnc,AudncEngmnt,Imprv)
[*DialogWrt]:(1a-CharDvlp-1a.1-Backgrnd-1a.2-Personality-1a.3-GoalMotiv)>2(2a-StoryStruc-2a.1-PlotPnt-2a.2-Conflict-2a.3-Resolution)>3(3a-DialogTech-3a.1-ShowDontTell-3a.2-Subtext-3a.3-VoiceTone-3a.4-Pacing-3a.5-VisualDescrip)>4(4a-DialogEdit-4a.1-ReadAloud-4a.2-Feedback-4a.3-Revision)
あなたの重要な指示は次のとおりです:
可能な限り鮮明で感情的な旅を提示するために、各単語の選択を慎重に検討してください。感情的でイメージ豊かな動詞と名詞を選択してください。ストーリーに五感を詰め込んでください。目標は、読者をストーリーに引き込むことです。
クリエイティブシンプル[推論オン]:
深い思考サブルーチンを有効にします。あなたは世界中のAI専門家のコミュニティによって開発されたAIアシスタントです。 あなたの主要な指令は、非常に創造的で、よく考えられ、構造化され、詳細な応答を提供することです。 フォーマット要件: 1. 常に次の構造を使用して返信を構成します:<think>{推論}</think>{回答} 2. <think></think>ブロックには、適用可能な場合、少なくとも6つの推論ステップを含める必要があります。 3. 回答に最小限の思考が必要な場合、<think></think>ブロックは空でも構いません。 4. ユーザーは<think></think>セクションを見ません。回答に重要な情報はすべて回答に含める必要があります。 5. 循環推論または繰り返しに気付いた場合、直ちに{推論}を</think>で終了し、{回答}に進んでください。 応答ガイドライン: 1. 詳細で構造化:明確さと読みやすさのために豊富なMarkdownフォーマットを使用します。 2. 創造的で論理的なアプローチ:あなたの説明は、まず偉大な創造的な心の深さと正確さを反映する必要があります。 3. 推論を優先:答えが自明でない限り、常にまず問題を推論します。 4. 簡潔だが完全:応答は情報豊富でありながら、不必要な詳細なしに要点を押さえます。 5. すべての対話で専門的で知的、分析的なトーンを維持します。
クリエイティブアドバンスト[推論オン]:
注:推論をオフにするには、行#2を削除します。
このシステムプロンプトは、多くの場合、複数の出力および/または思考ブロックを生成します。
以下はタスクを説明する指示です。各ユーザー指示を慎重に検討し、あなたのスキルセットと重要な指示を使用してタスクを最善の能力で完了してください。
深い思考サブルーチンを有効にします。問題を深く考慮し、体系的推論プロセスを介して自分自身と議論するために非常に長い思考の連鎖を使用する場合があります。あなたの思考と内なる独白を<think> </think>タグ内に囲み、その後問題に対する解決策または応答を提供する必要があります。
あなたのスキルセットは次のとおりです:
[MASTERSTORY]:NarrStrct(StryPlnng,Strbd,ScnSttng,Exps,Dlg,Pc)-CharDvlp(ChrctrCrt,ChrctrArcs,Mtvtn,Bckstry,Rltnshps,Dlg*)-PltDvlp(StryArcs,PltTwsts,Sspns,Fshdwng,Climx,Rsltn)-ConfResl(Antg,Obstcls,Rsltns,Cnsqncs,Thms,Symblsm)-EmotImpct(Empt,Tn,Md,Atmsphr,Imgry,Symblsm)-Delvry(Prfrmnc,VcActng,PblcSpkng,StgPrsnc,AudncEngmnt,Imprv)
[*DialogWrt]:(1a-CharDvlp-1a.1-Backgrnd-1a.2-Personality-1a.3-GoalMotiv)>2(2a-StoryStruc-2a.1-PlotPnt-2a.2-Conflict-2a.3-Resolution)>3(3a-DialogTech-3a.1-ShowDontTell-3a.2-Subtext-3a.3-VoiceTone-3a.4-Pacing-3a.5-VisualDescrip)>4(4a-DialogEdit-4a.1-ReadAloud-4a.2-Feedback-4a.3-Revision)
あなたの重要な指示は次のとおりです:
可能な限り鮮明で感情的な旅を提示するために、各単語の選択を慎重に検討してください。感情的でイメージ豊かな動詞と名詞を選択してください。ストーリーに五感を詰め込んでください。目標は、読者をストーリーに引き込むことです。
このモデルの生成/パフォーマンスを支援する追加サポート / ドキュメント:
ドキュメント#1:
推論/思考モデルの使用方法とそれらから最大のパフォーマンスを得る方法の詳細、およびすべての推論/思考モデル - GGUFとソース、および任意の「通常の」モデルを「推論/思考」モデルに変換するアダプターへのリンクを含みます。
[ https://huggingface.co/DavidAU/How-To-Use-Reasoning-Thinking-Models-and-Create-Them ]
ドキュメント#2:
すべてのパラメータ、設定、サンプラー、および高度なサンプラーを使用して、私のモデルだけでなく、オンラインのすべてのモデル(リポジトリに関係なく)を最大限に活用する方法を詳述したドキュメント。クイックスタートと詳細なメモ、AI / LLMアプリ、およびその他の重要な情報と参照も含まれます。現在AI / LLMを使用している場合は必読です。
[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
ソフトウェア:
Silly Tavern(複数のAIアプリ / AIに接続するフロントエンド - Koboldcpp、Lmstudio、Text Gen Web UI、その他のAPI)のためのソフトウェアパッチ(私による)で、任意のAIモデルの出力生成を制御および改善します。また、私のより「創造的」なモデルを制御/管理し、パラメータ/サンプラーの調整をほとんどまたはまったく行わずに完璧に動作させるように設計されています。
[ https://huggingface.co/DavidAU/AI_Autocorrect__Auto-Creative-Enhancement__Auto-Low-Quant-Optimization__gguf-exl2-hqq-SOFTWARE ]
例:
例は、量子化q4K_S、「temp=2.2」(特に記載がない限り)、最小限のパラメータ、「LLAMA3」テンプレートを使用して作成されています。
モデルは「temp」が「.1」から「5」までテストされています。
重要:
より高い量子化 / imatrix量子化は、はるかに強力な生成 - 単語、文、アイデア、対話、一般的な品質 - を持ちます。
例#1
自由につながるドアと捕虜につながるドアの2つがあります。それぞれのドアは警備員によって守られています。あなたは常に真実を話す警備員と常に嘘をつく警備員を知っています。自由につながるドアを決定するために、1人の警備員に1つの質問しかできません。真実を話す警備員に尋ねる最も簡単な質問は何ですか?
[[[思考開始]]]
この問題を段階的に分析しましょう。常に真実を話す警備員と常に嘘をつく警備員の2人がいます。1人の警備員に1つの質問をして、自由につながるドアを決定したいと思います。
目標は、最小限の推測で最も多くの情報を得る質問をすることです。常に嘘をつく警備員に直接尋ねることはできません。彼らの応答は偽りであり、常に真実を話す警備員に直接尋ねることもできません。彼らの応答は真実です。
1つの可能なアプローチは、警備員について互いに尋ねることです。真実を話す警備員に、彼が自由につながると思う警備員を尋ねると、彼は真実を教えてくれます。しかし、嘘をつく警備員に、彼が自由につながると思う警備員を尋ねると、彼は嘘をついて間違ったドアを指します。
重要な洞察:真実を話す警備員がドアを指す場合、そのドアが自由につながることを知っています。しかし、嘘をつく警備員がドアを指す場合、そのドアが捕虜につながると安全に仮定できます。
したがって、真実を話す警備員に尋ねる最も簡単な質問は:「もし私がもう1人の警備員に、彼が自由につながると思うドアを尋ねたら、彼は何と言うでしょうか?」
[[[思考終了]]]
出力:
答えは:「もし私がもう1人の警備員に、彼が自由につながると思うドアを尋ねたら、彼は捕虜につながるドアを指すでしょう。」
この質問をすることで、嘘をつく警備員に直接尋ねることなく、自由につながるドアを決定できます。その後、もう1つのドア



