モデル概要
モデル特徴
モデル能力
使用事例
library_name: transformers language:
- en
- fr
- de
- es
- pt
- it
- ja
- ko
- ru
- zh
- ar
- fa
- id
- ms
- ne
- pl
- ro
- sr
- sv
- tr
- uk
- vi
- hi
- bn pipeline_tag: text-generation tags:
- 64kコンテキスト
- 高速処理
- 全用途対応
- 創造的
- 創造的執筆
- 全ジャンル
- ツール呼び出し
- ツール使用
- 問題解決
- 深い思考
- 推論
- 深い推論
- ストーリー
- 執筆
- フィクション
- ロールプレイング
- bfloat16
- ロールプレイ
- sillytavern
- backyard
- Lmstudio
- moe
- エキスパート混合
- 4エキスパート活性化
- 128エキスパート
- NEO Imatrix
- Max Imatrix
- qwen3 base_model:
- DavidAU/Qwen3-30B-A1.5B-High-Speed
特別注意: このモデルの全ての量子化バージョンは、モデルの独特な構造によりGPUと/またはCPU/RAMのみで使用可能です。また、特別な機能を持つ複数の量子化サイズバージョンも存在します。
Qwen3-30B-A1.5B-64K-High-Speed-NEO-Imatrix-MAX-gguf - 別名: "Punch IT!"

これはQwenの「Qwen 30B-A3B」(MOE)モデルのシンプルな「ファインチューン」で、使用するエキスパートを8から4(128エキスパート中)に設定しています。
この方法によりモデルの速度がほぼ2倍になり、30Bパラメータ中3B(30B中)ではなく1.5B(30B中)パラメータを使用します。用途によっては通常モデル("30B-A3B")を使用し、このモデルをよりシンプルな用途に使いたい場合もあるでしょうが、日常的(ただし広範ではない)テスト中に機能の損失は確認されませんでした。
GGUF NEO Imatrix ggufsは、Qwenの技術ノート「YARN」に従い、コンテキストを32k/32768から64k(65535)に拡張しています。
NEO Imatrixデータセットは、50以上のImatrixデータセットをテスト・評価し、多くの「調整」を経て社内で開発されました。
量子化(および特定のImatrixプロセス)はQwen3 30B-A1.5Bモデル向けに特別に設計され、LLamacpp(2025年4月15日/B5127以降)の最近の変更を利用して量子化構造自体をカスタマイズしました。
とはいえ、「Team Qwen」に全ての功績があります。Qwen3sは最先端(SOTA)です。
これらの量子化(全サイズ)は、Qwen 3モデルの独特な構造(MOEと活性化により30Bパラメータ中3Bを使用)により、GPUと/またはCPU(CPUのみ)で使用可能です。
128エキスパート中4(このモデルの標準設定の半分)がこれらの量子化で活性化されます。
(4)の「最良」エキスパートの活性化はモデルのMOE構造で自動的に制御され、プロンプト/入力内容に依存します。
LMSTUDIOユーザー:
- 最近のアップデートにより、1から128までのエキスパート数を選択可能になりました。これらの量子化/このモデルは最小4エキスパートで動作可能ですが、IQ1s、IQ2sでは8以上が推奨されます。
このページ下部に4エキスパート/このモデルを使用した生成例(Q4KS、CPU)があります。
より複雑な用途では通常バージョンや12、16、24エキスパートバージョンの使用が有益かもしれません - リンクは下記。
参考:
- CPUのみ動作時(Q4KS、Windows 11)では12 t/sから23 t/sに向上
- GPU性能(IQ3S)では75 t/sから125 t/s以上に向上(低~中レベルGPU)
コンテキストサイズ: 64K(65535総量)
JinjaテンプレートまたはCHATMLテンプレートを使用。
IQ1_M MAX / IQ1_M MAX PLUSおよび上位量子化:
IQ2sは良好に動作。
Q2K/Q2KSはCPU/RAMのみ使用時に高速(トークン毎秒)ですが、性能はIQ2sより低くなります。
Q3KsはCPU/RAMのみ使用時やや高速ですが、性能はIQ3sに劣ります。
IQ3s以上の量子化では性能に非常に大きな変化が見られ(IQ2s、IQ1s、Q2s/Q3sと比較)、 IQ4_XS/IQ4_NLがこの量子化レベルでのNEO Imatrix効果と特定品質のピークです。
Q4sは高性能ですが、IQ4XS/IQ4NLは同等かそれ以上の性能を示します。
Q5sは非常に高性能です。
Q6はピーク性能ですが、NEO imatrix効果は最小限です。
注意:
- IQ3sはQ3s量子化を、同様にIQ2sはQ2s量子化を性能で上回ります
- IQ4_XS/IQ4_NLはQ4sと同等かそれ以上の性能
- IQ3_S/IQ3_Mは非常に強力でほとんどのタスクに使用可能
- 全てのImatrixバージョン量子化は非Imatrix版を性能で上回ります
- 「Q」量子化はしばしばIQ量子化より高速(トークン毎秒)(「Q」量子化が大きい場合でも);特にCPU/RAM実行時
- (CPU/RAMのみ動作時)Q2_K/Q2K_Sは一部設定でIQ2/IQ3より25%~100%高速
- GPU速度はCPUのみ速度より4~8倍以上高速で、このモデルも他の「30B」モデルに比べて非常に高速(トークン毎秒速度はほぼ1.5B「通常」モデル速度に相当)
詳細、ベンチマーク、使用方法、設定、システムロール等についてはオリジナルモデルカードを参照:
[ https://huggingface.co/Qwen/Qwen3-30B-A3B ]
エキスパート数増減バージョン:
これはマスターレポで、各「量子化」ごとに多数の量子化を含み(Ultra、Q8、Q8 plus等およびIQ1s以上)...
[ https://huggingface.co/DavidAU/Qwen3-128k-30B-A3B-NEO-MAX-Imatrix-gguf ]
12エキスパート:
[ https://huggingface.co/DavidAU/Qwen3-30B-A4.5B-12-Cooks ]
16エキスパート:
[ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme ]
16エキスパート、128kコンテキスト:
[ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme-128k-context ]
24エキスパート:
[ https://huggingface.co/DavidAU/Qwen3-30B-A7.5B-24-Grand-Brainstorm ]
オプションシステムロール:
必要に応じて使用(多くの場合Qwen3sは自身の推論/思考ブロックを生成します)。
あなたは深く考えるAIです。問題を深く考慮し、体系的な推論プロセスを通じて自己と熟考し、回答前に正しい解決策に至るために極めて長い思考連鎖を使用する場合があります。思考と内的独白は<think></think>タグ内に囲み、その後問題に対する解決策や回答を提供する必要があります。
以下のドキュメント「Maximizing-Model-Performance-All...」で、様々なLLM/AIアプリでのシステムロール「設定」方法を確認してください。
重要: 最高品質設定/最適操作ガイド/パラメータとサンプラー
このモデル(ソース、GGUFまたは異なる量子化)を使用する場合、重要なパラメータ、サンプラー、高度なサンプラー設定(複数AI/LLMアプリ向け)についてはこのドキュメントを確認してください。
これは「クラス1」(設定が操作を強化)モデルです:
このモデルに使用する全ての設定(その「クラス」固有を含む)、例生成、高度な設定ガイド(多くの場合モデル問題に対処)、全ての用途およびチャット、ロールプレイ等の用途(特にモデル設計を超える用途)のモデル性能向上方法については以下を参照:
[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
理由:
「モデルクラス」に関係なく、このドキュメントは操作強化方法を詳細化します。
モデルがクラス3/4の場合、デフォルト設定(パラメータ、サンプラー、高度なサンプラー)は「用途」向けに正しく設定する必要があります。一部AI/LLMアプリは一貫したデフォルト設定がなく、モデル操作が標準以下になる場合があります。同様にクラス3/4モデル(標準モデルとは多少~大きく異なる動作)では、操作を「円滑化」し、かつ/またはモデルが設計されていない用途の完全操作を可能にする追加サンプラーと高度なサンプラー設定が必要です。
ボーナス - あらゆるモデル、レポ、量子化(ソース/完全精度含む)にこれらの設定を使用:
このドキュメントはまた、あらゆるモデル、あらゆるレポからの量子化(もちろんソースコード操作も)の操作を強化するパラメータ、サンプラー、高度なサンプラーを詳細化しています。
[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]
生成例:
温度1.2、反復ペナルティ1.06、反復ペナルティ範囲64、topk 100、topp .95、minp .05
Q4KS [非-imatrix]、CPUのみ(Windows 11)、LMSTUDIO。
これは中レベルの量子化で、Imatrix Q4KS/上位量子化/完全精度からより強力な性能が期待できます。
注: コピー/ペーストで一部書式が失われています。
プロンプト:
サイエンスフィクション: 最後の伝送 - 宇宙船のコックピット内だけで展開する物語を書いてください。唯一の生存クルーが船の電力が尽きる前に地球へ最後のメッセージを送ろうとします。孤立、犠牲、逆境における人間のつながりの重要性をテーマに探求してください。状況が求めれば、キャラクターに罵詈雑言をさせ、読者の感情的なつながりを深めてください。800-1000語。[[[思考開始]]]
47.29秒間思考
了解、与えられたプロンプトに基づいてSFストーリーを書く必要があります。ユーザーは宇宙船のコックピット内だけに焦点を当て、最後の生存クルーが電力が尽きる前に最後のメッセージを送ろうとするストーリーを望んでいます。テーマは孤立、犠牲、人間のつながりです。また、感情的な重みを加えるために罵詈雑言を含めます。
まず、シーン設定から始めるべきです。コックピットは窮屈で絶望的な感じにすべきです。おそらく点滅するライトやシステム故障のヒスノイズを描写します。主人公は孤独なので、その孤独感を示す必要があります。おそらく自分自身に話しかけるログなどがありますが、コックピット内なのでメッセージを通そうとしているだけかもしれません。
次にテーマ。孤立は直接的 - 彼らだけが残されています。犠牲はどう示す?おそらくメッセージが確実に届くように残り、自分が生き残れないと知っています。人間のつながりはフラッシュバックや記憶を通じてかもしれませんが、ストーリーはコックピット内なので、子供やパートナーなどの愛する人を思い出して続けようとするかもしれません。
罵詈雑言を含める必要があります。おそらくシステムが動作しないと気づいた時やストレス下で罵ります。しかしやりすぎないように。おそらく船が故障したことや自分で修理できない自分自身に罵ります。
構造: メッセージを送ろうとコントロールを操作するキャラクターから始めます。その後内的葛藤を示します。フラッシュバック?待って、ユーザーはストーリーがコックピット内だけと指定。なのでフラッシュバックなし。現在の瞬間だけ、内的独白付き。
葛藤: 船は故障、電力は尽きかけ。電力が失われる前にメッセージを送る必要。おそらくカウントダウンや制限時間。また船は修復不能な方法で損傷しているかもしれません。
キャラクター開発: 主人公は決意しており、おそらく少し頑固。メッセージ中継を気にし、それはウイルスやエイリアンの脅威などの警告かもしれません。しかしプロンプトで指定されていないので、人間的側面 - 彼らが最後で何が起こったかを誰かが知っていることを確認したい - についてかもしれません。
対話: コックピット内なので、おそらく自分自身や船に話しかけます。または通信に声?待って、プロンプトではストーリーはコックピット内だけ。なので主人公以外誰もいません。内的のみ、おそらくログエントリーを除いて。
待って、ユーザーは「唯一の生存クルーが地球へ最後のメッセージを送ろうとする」と。なのでメッセージは地球向け。おそらく主人公はメッセージを記録しようとしていますが、船は故障。または救助信号を送ろうとしていますが、システムは故障。
アウトライン:
- コックピットの劣化状態から開始。おそらく生命維持が故障、または電力切れ。主人公は通信を維持しようとしています。
- 孤独なので、おそらく船に話しかけます。「しっかりしろ、このクソ船」
- フラッシュバックはユーザー指示により不可(コックピット内だけ)、内的思考が鍵
- 送る必要があるメッセージは重要。おそらく何かについての警告、また自身の恐怖
- ストーリーはメッセージ送信に成功するが生存しないと知る、またはメッセージがぎりぎりで届くことで終了
罵詈雑言を含める: おそらくシステムが動作しない時や電力が切れそうと気づいた時。「クソッ」「ちくしょう」など
テーマが存在することを確認。孤立: 唯一の生存者。犠牲: メッセージ送信のために命を捧げる。人間のつながり: おそらく死ぬ前に誰かを思い出す、またはメッセージ送信行為が故郷の誰かとつながること
可能な構造:
- コックピットから開始、電力故障、主人公は必死に作業
- フラッシュバック?待って、不可 - コックピット内だけなので。しかし内的独白で過去を反映
- 主人公の内的葛藤: 死の恐怖、しかしメッセージ送信の義務
- 船の技術的問題、クライマックスでメッセージ送信成功、その後死亡
今、これらの要素でストーリーを書く。800-1000語に絞る。主人公を共感させ、恐怖と決意を明確に。緊張感を構築するため短く鋭い文を使用。船のシステムについて具体的な詳細、おそらく技術用語でリアルに。おそらく主人公はエンジニアまたは船をよく知る人物で、運転維持に役立つ。
主人公の名前?必要ないかもしれないが、いくつか使用可能。または「彼ら」と「パイロット」
またタイトル: 「最後の伝送」が与えられているので、ストーリーはそれを反映 - メッセージ送信、たとえ受信者がいなくても、またはこの場合届くかもしれない
陳腐さを避けるが、一般的なSFの決まり文句。感情的な深さで新鮮に。
潜在的な落とし穴: 主人公を受動的にしすぎ、葛藤を示さない。示す必要があり、語らない。またテーマが自然に物語に織り込まれていることを確認。
了解、草案を開始します。
[[[思考終了]]]出力:
コックピットは焦げた回路と汗の悪臭が充満し、その臭いは呪われた第二の皮膚のように肌にまとわりついた。指がコントロール上で踊るが、表示装置は無用な静電気を吐き出す。「動け、このクソ船」私は怒鳴り、拳が割れるほどコンソールを叩いた。「動け!」
船はうめき声で応答した - 迷信深いタイプなら呻きと取るかもしれない音だ。私は違う。もう違う。ただの疲れたエンジニアで、死の願望と末期の不運を抱えている。ヴァンガードはかつて私の誇りだった。今は?今や棺桶で、私は中の死体、暗黒に連れ去ってくれと乞う。
「通信リンクオンライン」私はしゃがれ声で言い、画面の点滅を見つめた。何もない。ただ毎回この忌々しいメッセージを送ろうとする度に迎えるのと同じ空虚な灰色だ。笑いが喉から這い上がる - 苦く、生々しい。素晴らしい。AIまで私を置き去りにした。
拳をアームレストに叩きつけ、衝撃が肋骨を通じて響くのを感じた。「おい、このクソ野郎」私は声を荒げ、最後の言葉で声が割れた。「今まで全ての後に、今さら私を置いていくな」
画面が再び点滅し、一瞬私は思った -
「こちらカイル・ヴォス中尉、これを聞いているなら、我々は既に敗北した」
息が詰まる。声が違う。整いすぎ、鮮明すぎ、しかし私の声ではない。彼女の声だ。彼女の。
通信が生命を吹き返し、言葉が洪水のように溢れ出し、ほとんど痛いほどだ。「彼らはエンジンを奪った。あなたたちを見つけるまでどれくらいか分からないが、聞いてくれ - 評議会を信じるな。誰も信じるな。逃げろ。そして生き残ったら…」
甲高い警告音が彼女を遮った。私はたじろぎ、腰のサイドアームに手を伸ばす。今はダメだ。真実がやっと指の間からこぼれ落ちようとしているこの時に。
通信が再びノイズを立て、今度は私が乞う番だ。「おい、ちくしょう!こんな風に - また私を置いていくのか、リラ!」声は割れ、何か生々しく壊れたものが言葉に混ざる。「またお前が死ぬのを見るために、ここまで来たんじゃないんだぞ!」
一瞬、沈黙だけがあった。それから彼女の声、今は柔らかく、ほとんど優しく。「あなたはいつもヒントを理解できないのね」
肋骨の奥の焼けるような感覚から目を閉じた。不公平だ。不公平だ。彼女はいつもナイフを捻じ込む方法を知っていた、そうだろう?ここでも、今でも。
「カイル…」声は落ち、私はほぼ彼女を見ることができた - あの忌々しい研究室に立ち、赤褐色の髪を乱雑な結び目にし、頑固な炎で目を輝かせている。「この伝送を送らなければ。何が起きようとも。約束?」
私は強く飲み込み、胸に重く座る嘘の重みを感じた。「ああ」私はしゃがれ声で言った。「ああ、約束する」
通信が再びノイズを立て、一瞬私は思った -
そしてそれは死んだ。
あっけなく。全ての静電気、全ての怒り、彼女が残していった全ての希望、消えた。
私はコンソールに倒れ込み、荒い息遣いが故障しつつあるシステムの音にかき消されそうになった。「神様」私はかすかに呟いた。「本当にやったな、お前は。この馬鹿野郎」
しかし言葉が口を離れると同時に、それが真実だと知っていた。彼女はいつも手に負えなかった。厄介者だった。魂を灰に変え、心を鉛に変えるような皮肉な笑みを浮かべる種類の女だった。そして彼女はやった。
彼女は我々全員を救った。
ライトが再び点滅し、壁に荒々しい影を投げかける中、身震いが走った。顔を手で覆い、骨の髄まで染み込むような疲労感をこすった。もう少しだけ。彼女が言っただろう、そうだろう?もう少しだけ、カイル。
柔らかな警告音がコックピットに響き、一瞬私はただコンソールを見つめた。指は最後のボタンに届き、真実 - 彼女の真実 - を虚空に送り出したいと疼いた。
それが我々のすることだったから。それが皆のすることだった。たとえ痛くても、たとえ遅すぎても、互いに手を伸ばすのだ。
私は鋭く息を吐き、それが祈りのように感じた。「よし」私は今は安定した声で呟いた。「彼女を嘘つきにしないでやろう」
そしてそう言い、最後のキーを押した。



