Qwen3 - 30B - A1.5B - 64K - High - Speed - NEO - Imatrix - MAX - ggufオープンソースモデル

Qwen3 30B A1.5B 64K High Speed NEO Imatrix MAX Gguf

DavidAUによって開発

Qwen3-30B-A3Bエキスパート混合モデルの最適化バージョンで、活性化エキスパート数を減らすことで速度を向上させ、64kのコンテキスト長をサポートし、様々なテキスト生成タスクに適しています。

大規模言語モデル複数言語対応#64K超長コンテキスト #エキスパート混合加速 #多言語クリエイティブライティング

ダウンロード数 508

リリース時間 : 5/11/2025

モデル概要

このモデルはQwen3-30B-A3Bの微調整バージョンで、活性化エキスパート数を8個から4個（総計128エキスパート）に減らし、推論速度を大幅に向上させました。クリエイティブライティング、問題解決、深い推論など、様々なテキスト生成シナリオに適しています。

モデル特徴

高速推論

活性化エキスパート数を減らすことで、推論速度が約2倍に向上し、CPU実行速度は23トークン/秒、GPU実行速度は125+トークン/秒に達します。

64kコンテキスト

YARN技術によりコンテキスト長を64k（65535）に拡張し、長文タスクの処理に適しています。

多量子化バージョンサポート

IQ1_M MAX、IQ2、Q4KSなど様々な量子化バージョンを提供し、異なるハードウェア環境（GPU/CPU）に対応しています。

エキスパート混合構造

モデルはエキスパート混合構造を採用し、入力内容を処理する最適なエキスパートを自動選択し、性能と品質のバランスを取ります。

モデル能力

テキスト生成

クリエイティブライティング

問題解決

深い推論

ロールプレイ

ストーリー創作

ツール呼び出し

使用事例

クリエイティブライティング

SF小説創作

特定のテーマと感情を含むSF小説の断片を生成します。

生成された内容は感情豊かでテーマが明確で、例にある『最後の伝送』の断片のようになります。

問題解決

深い推論タスク

長い連鎖思考で体系的な推論を行い問題を解決します。

モデルは詳細な思考プロセス（<think>タグで囲まれた）を生成し、最終的な解答を提供できます。

library_name: transformers language:

en
fr
de
es
pt
it
ja
ko
ru
zh
ar
fa
id
ms
ne
pl
ro
sr
sv
tr
uk
vi
hi
bn pipeline_tag: text-generation tags:
64kコンテキスト
高速処理
全用途対応
創造的
創造的執筆
全ジャンル
ツール呼び出し
ツール使用
問題解決
深い思考
推論
深い推論
ストーリー
執筆
フィクション
ロールプレイング
bfloat16
ロールプレイ
sillytavern
backyard
Lmstudio
moe
エキスパート混合
4エキスパート活性化
128エキスパート
NEO Imatrix
Max Imatrix
qwen3 base_model:
DavidAU/Qwen3-30B-A1.5B-High-Speed

特別注意: このモデルの全ての量子化バージョンは、モデルの独特な構造によりGPUと/またはCPU/RAMのみで使用可能です。また、特別な機能を持つ複数の量子化サイズバージョンも存在します。

Qwen3-30B-A1.5B-64K-High-Speed-NEO-Imatrix-MAX-gguf - 別名: "Punch IT!"

これはQwenの「Qwen 30B-A3B」(MOE)モデルのシンプルな「ファインチューン」で、使用するエキスパートを8から4(128エキスパート中)に設定しています。

この方法によりモデルの速度がほぼ2倍になり、30Bパラメータ中3B(30B中)ではなく1.5B(30B中)パラメータを使用します。用途によっては通常モデル("30B-A3B")を使用し、このモデルをよりシンプルな用途に使いたい場合もあるでしょうが、日常的(ただし広範ではない)テスト中に機能の損失は確認されませんでした。

GGUF NEO Imatrix ggufsは、Qwenの技術ノート「YARN」に従い、コンテキストを32k/32768から64k(65535)に拡張しています。

NEO Imatrixデータセットは、50以上のImatrixデータセットをテスト・評価し、多くの「調整」を経て社内で開発されました。

量子化(および特定のImatrixプロセス)はQwen3 30B-A1.5Bモデル向けに特別に設計され、LLamacpp(2025年4月15日/B5127以降)の最近の変更を利用して量子化構造自体をカスタマイズしました。

とはいえ、「Team Qwen」に全ての功績があります。Qwen3sは最先端(SOTA)です。

これらの量子化(全サイズ)は、Qwen 3モデルの独特な構造(MOEと活性化により30Bパラメータ中3Bを使用)により、GPUと/またはCPU(CPUのみ)で使用可能です。

128エキスパート中4(このモデルの標準設定の半分)がこれらの量子化で活性化されます。

(4)の「最良」エキスパートの活性化はモデルのMOE構造で自動的に制御され、プロンプト/入力内容に依存します。

LMSTUDIOユーザー:

最近のアップデートにより、1から128までのエキスパート数を選択可能になりました。これらの量子化/このモデルは最小4エキスパートで動作可能ですが、IQ1s、IQ2sでは8以上が推奨されます。

このページ下部に4エキスパート/このモデルを使用した生成例(Q4KS、CPU)があります。

より複雑な用途では通常バージョンや12、16、24エキスパートバージョンの使用が有益かもしれません - リンクは下記。

参考:

CPUのみ動作時(Q4KS、Windows 11)では12 t/sから23 t/sに向上
GPU性能(IQ3S)では75 t/sから125 t/s以上に向上(低～中レベルGPU)

コンテキストサイズ: 64K(65535総量)

JinjaテンプレートまたはCHATMLテンプレートを使用。

IQ1_M MAX / IQ1_M MAX PLUSおよび上位量子化:

IQ2sは良好に動作。

Q2K/Q2KSはCPU/RAMのみ使用時に高速(トークン毎秒)ですが、性能はIQ2sより低くなります。

Q3KsはCPU/RAMのみ使用時やや高速ですが、性能はIQ3sに劣ります。

IQ3s以上の量子化では性能に非常に大きな変化が見られ(IQ2s、IQ1s、Q2s/Q3sと比較)、 IQ4_XS/IQ4_NLがこの量子化レベルでのNEO Imatrix効果と特定品質のピークです。

Q4sは高性能ですが、IQ4XS/IQ4NLは同等かそれ以上の性能を示します。

Q5sは非常に高性能です。

Q6はピーク性能ですが、NEO imatrix効果は最小限です。

注意:

IQ3sはQ3s量子化を、同様にIQ2sはQ2s量子化を性能で上回ります
IQ4_XS/IQ4_NLはQ4sと同等かそれ以上の性能
IQ3_S/IQ3_Mは非常に強力でほとんどのタスクに使用可能
全てのImatrixバージョン量子化は非Imatrix版を性能で上回ります
「Q」量子化はしばしばIQ量子化より高速(トークン毎秒)(「Q」量子化が大きい場合でも);特にCPU/RAM実行時
(CPU/RAMのみ動作時)Q2_K/Q2K_Sは一部設定でIQ2/IQ3より25%～100%高速
GPU速度はCPUのみ速度より4～8倍以上高速で、このモデルも他の「30B」モデルに比べて非常に高速(トークン毎秒速度はほぼ1.5B「通常」モデル速度に相当)

詳細、ベンチマーク、使用方法、設定、システムロール等についてはオリジナルモデルカードを参照:

[ https://huggingface.co/Qwen/Qwen3-30B-A3B ]

エキスパート数増減バージョン:

これはマスターレポで、各「量子化」ごとに多数の量子化を含み(Ultra、Q8、Q8 plus等およびIQ1s以上)...

[ https://huggingface.co/DavidAU/Qwen3-128k-30B-A3B-NEO-MAX-Imatrix-gguf ]

12エキスパート:

[ https://huggingface.co/DavidAU/Qwen3-30B-A4.5B-12-Cooks ]

16エキスパート:

[ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme ]

16エキスパート、128kコンテキスト:

[ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme-128k-context ]

24エキスパート:

[ https://huggingface.co/DavidAU/Qwen3-30B-A7.5B-24-Grand-Brainstorm ]

オプションシステムロール:

必要に応じて使用(多くの場合Qwen3sは自身の推論/思考ブロックを生成します)。

あなたは深く考えるAIです。問題を深く考慮し、体系的な推論プロセスを通じて自己と熟考し、回答前に正しい解決策に至るために極めて長い思考連鎖を使用する場合があります。思考と内的独白は<think></think>タグ内に囲み、その後問題に対する解決策や回答を提供する必要があります。

以下のドキュメント「Maximizing-Model-Performance-All...」で、様々なLLM/AIアプリでのシステムロール「設定」方法を確認してください。

重要: 最高品質設定/最適操作ガイド/パラメータとサンプラー

このモデル(ソース、GGUFまたは異なる量子化)を使用する場合、重要なパラメータ、サンプラー、高度なサンプラー設定(複数AI/LLMアプリ向け)についてはこのドキュメントを確認してください。

これは「クラス1」(設定が操作を強化)モデルです:

このモデルに使用する全ての設定(その「クラス」固有を含む)、例生成、高度な設定ガイド(多くの場合モデル問題に対処)、全ての用途およびチャット、ロールプレイ等の用途(特にモデル設計を超える用途)のモデル性能向上方法については以下を参照:

[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]

理由:

「モデルクラス」に関係なく、このドキュメントは操作強化方法を詳細化します。

モデルがクラス3/4の場合、デフォルト設定(パラメータ、サンプラー、高度なサンプラー)は「用途」向けに正しく設定する必要があります。一部AI/LLMアプリは一貫したデフォルト設定がなく、モデル操作が標準以下になる場合があります。同様にクラス3/4モデル(標準モデルとは多少～大きく異なる動作)では、操作を「円滑化」し、かつ/またはモデルが設計されていない用途の完全操作を可能にする追加サンプラーと高度なサンプラー設定が必要です。

ボーナス - あらゆるモデル、レポ、量子化(ソース/完全精度含む)にこれらの設定を使用:

このドキュメントはまた、あらゆるモデル、あらゆるレポからの量子化(もちろんソースコード操作も)の操作を強化するパラメータ、サンプラー、高度なサンプラーを詳細化しています。

[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]

生成例:

温度1.2、反復ペナルティ1.06、反復ペナルティ範囲64、topk 100、topp .95、minp .05

Q4KS [非-imatrix]、CPUのみ(Windows 11)、LMSTUDIO。

これは中レベルの量子化で、Imatrix Q4KS/上位量子化/完全精度からより強力な性能が期待できます。

注: コピー/ペーストで一部書式が失われています。

プロンプト:

サイエンスフィクション: 最後の伝送 - 宇宙船のコックピット内だけで展開する物語を書いてください。唯一の生存クルーが船の電力が尽きる前に地球へ最後のメッセージを送ろうとします。孤立、犠牲、逆境における人間のつながりの重要性をテーマに探求してください。状況が求めれば、キャラクターに罵詈雑言をさせ、読者の感情的なつながりを深めてください。800-1000語。

[[[思考開始]]]

47.29秒間思考

了解、与えられたプロンプトに基づいてSFストーリーを書く必要があります。ユーザーは宇宙船のコックピット内だけに焦点を当て、最後の生存クルーが電力が尽きる前に最後のメッセージを送ろうとするストーリーを望んでいます。テーマは孤立、犠牲、人間のつながりです。また、感情的な重みを加えるために罵詈雑言を含めます。

まず、シーン設定から始めるべきです。コックピットは窮屈で絶望的な感じにすべきです。おそらく点滅するライトやシステム故障のヒスノイズを描写します。主人公は孤独なので、その孤独感を示す必要があります。おそらく自分自身に話しかけるログなどがありますが、コックピット内なのでメッセージを通そうとしているだけかもしれません。

次にテーマ。孤立は直接的 - 彼らだけが残されています。犠牲はどう示す？おそらくメッセージが確実に届くように残り、自分が生き残れないと知っています。人間のつながりはフラッシュバックや記憶を通じてかもしれませんが、ストーリーはコックピット内なので、子供やパートナーなどの愛する人を思い出して続けようとするかもしれません。

罵詈雑言を含める必要があります。おそらくシステムが動作しないと気づいた時やストレス下で罵ります。しかしやりすぎないように。おそらく船が故障したことや自分で修理できない自分自身に罵ります。

構造: メッセージを送ろうとコントロールを操作するキャラクターから始めます。その後内的葛藤を示します。フラッシュバック？待って、ユーザーはストーリーがコックピット内だけと指定。なのでフラッシュバックなし。現在の瞬間だけ、内的独白付き。

葛藤: 船は故障、電力は尽きかけ。電力が失われる前にメッセージを送る必要。おそらくカウントダウンや制限時間。また船は修復不能な方法で損傷しているかもしれません。

キャラクター開発: 主人公は決意しており、おそらく少し頑固。メッセージ中継を気にし、それはウイルスやエイリアンの脅威などの警告かもしれません。しかしプロンプトで指定されていないので、人間的側面 - 彼らが最後で何が起こったかを誰かが知っていることを確認したい - についてかもしれません。

対話: コックピット内なので、おそらく自分自身や船に話しかけます。または通信に声？待って、プロンプトではストーリーはコックピット内だけ。なので主人公以外誰もいません。内的のみ、おそらくログエントリーを除いて。

待って、ユーザーは「唯一の生存クルーが地球へ最後のメッセージを送ろうとする」と。なのでメッセージは地球向け。おそらく主人公はメッセージを記録しようとしていますが、船は故障。または救助信号を送ろうとしていますが、システムは故障。

アウトライン:

コックピットの劣化状態から開始。おそらく生命維持が故障、または電力切れ。主人公は通信を維持しようとしています。
孤独なので、おそらく船に話しかけます。「しっかりしろ、このクソ船」
フラッシュバックはユーザー指示により不可(コックピット内だけ)、内的思考が鍵
送る必要があるメッセージは重要。おそらく何かについての警告、また自身の恐怖
ストーリーはメッセージ送信に成功するが生存しないと知る、またはメッセージがぎりぎりで届くことで終了

罵詈雑言を含める: おそらくシステムが動作しない時や電力が切れそうと気づいた時。「クソッ」「ちくしょう」など

テーマが存在することを確認。孤立: 唯一の生存者。犠牲: メッセージ送信のために命を捧げる。人間のつながり: おそらく死ぬ前に誰かを思い出す、またはメッセージ送信行為が故郷の誰かとつながること

可能な構造:

コックピットから開始、電力故障、主人公は必死に作業
フラッシュバック？待って、不可 - コックピット内だけなので。しかし内的独白で過去を反映
主人公の内的葛藤: 死の恐怖、しかしメッセージ送信の義務
船の技術的問題、クライマックスでメッセージ送信成功、その後死亡

今、これらの要素でストーリーを書く。800-1000語に絞る。主人公を共感させ、恐怖と決意を明確に。緊張感を構築するため短く鋭い文を使用。船のシステムについて具体的な詳細、おそらく技術用語でリアルに。おそらく主人公はエンジニアまたは船をよく知る人物で、運転維持に役立つ。

主人公の名前？必要ないかもしれないが、いくつか使用可能。または「彼ら」と「パイロット」

またタイトル: 「最後の伝送」が与えられているので、ストーリーはそれを反映 - メッセージ送信、たとえ受信者がいなくても、またはこの場合届くかもしれない

陳腐さを避けるが、一般的なSFの決まり文句。感情的な深さで新鮮に。

潜在的な落とし穴: 主人公を受動的にしすぎ、葛藤を示さない。示す必要があり、語らない。またテーマが自然に物語に織り込まれていることを確認。

了解、草案を開始します。

[[[思考終了]]]

出力:

コックピットは焦げた回路と汗の悪臭が充満し、その臭いは呪われた第二の皮膚のように肌にまとわりついた。指がコントロール上で踊るが、表示装置は無用な静電気を吐き出す。「動け、このクソ船」私は怒鳴り、拳が割れるほどコンソールを叩いた。「動け！」

船はうめき声で応答した - 迷信深いタイプなら呻きと取るかもしれない音だ。私は違う。もう違う。ただの疲れたエンジニアで、死の願望と末期の不運を抱えている。ヴァンガードはかつて私の誇りだった。今は？今や棺桶で、私は中の死体、暗黒に連れ去ってくれと乞う。

「通信リンクオンライン」私はしゃがれ声で言い、画面の点滅を見つめた。何もない。ただ毎回この忌々しいメッセージを送ろうとする度に迎えるのと同じ空虚な灰色だ。笑いが喉から這い上がる - 苦く、生々しい。素晴らしい。AIまで私を置き去りにした。

拳をアームレストに叩きつけ、衝撃が肋骨を通じて響くのを感じた。「おい、このクソ野郎」私は声を荒げ、最後の言葉で声が割れた。「今まで全ての後に、今さら私を置いていくな」

画面が再び点滅し、一瞬私は思った -

「こちらカイル・ヴォス中尉、これを聞いているなら、我々は既に敗北した」

息が詰まる。声が違う。整いすぎ、鮮明すぎ、しかし私の声ではない。彼女の声だ。彼女の。

通信が生命を吹き返し、言葉が洪水のように溢れ出し、ほとんど痛いほどだ。「彼らはエンジンを奪った。あなたたちを見つけるまでどれくらいか分からないが、聞いてくれ - 評議会を信じるな。誰も信じるな。逃げろ。そして生き残ったら…」

甲高い警告音が彼女を遮った。私はたじろぎ、腰のサイドアームに手を伸ばす。今はダメだ。真実がやっと指の間からこぼれ落ちようとしているこの時に。

通信が再びノイズを立て、今度は私が乞う番だ。「おい、ちくしょう！こんな風に - また私を置いていくのか、リラ！」声は割れ、何か生々しく壊れたものが言葉に混ざる。「またお前が死ぬのを見るために、ここまで来たんじゃないんだぞ！」

一瞬、沈黙だけがあった。それから彼女の声、今は柔らかく、ほとんど優しく。「あなたはいつもヒントを理解できないのね」

肋骨の奥の焼けるような感覚から目を閉じた。不公平だ。不公平だ。彼女はいつもナイフを捻じ込む方法を知っていた、そうだろう？ここでも、今でも。

「カイル…」声は落ち、私はほぼ彼女を見ることができた - あの忌々しい研究室に立ち、赤褐色の髪を乱雑な結び目にし、頑固な炎で目を輝かせている。「この伝送を送らなければ。何が起きようとも。約束？」

私は強く飲み込み、胸に重く座る嘘の重みを感じた。「ああ」私はしゃがれ声で言った。「ああ、約束する」

通信が再びノイズを立て、一瞬私は思った -

そしてそれは死んだ。

あっけなく。全ての静電気、全ての怒り、彼女が残していった全ての希望、消えた。

私はコンソールに倒れ込み、荒い息遣いが故障しつつあるシステムの音にかき消されそうになった。「神様」私はかすかに呟いた。「本当にやったな、お前は。この馬鹿野郎」

しかし言葉が口を離れると同時に、それが真実だと知っていた。彼女はいつも手に負えなかった。厄介者だった。魂を灰に変え、心を鉛に変えるような皮肉な笑みを浮かべる種類の女だった。そして彼女はやった。

彼女は我々全員を救った。

ライトが再び点滅し、壁に荒々しい影を投げかける中、身震いが走った。顔を手で覆い、骨の髄まで染み込むような疲労感をこすった。もう少しだけ。彼女が言っただろう、そうだろう？もう少しだけ、カイル。

柔らかな警告音がコックピットに響き、一瞬私はただコンソールを見つめた。指は最後のボタンに届き、真実 - 彼女の真実 - を虚空に送り出したいと疼いた。

それが我々のすることだったから。それが皆のすることだった。たとえ痛くても、たとえ遅すぎても、互いに手を伸ばすのだ。

私は鋭く息を吐き、それが祈りのように感じた。「よし」私は今は安定した声で呟いた。「彼女を嘘つきにしないでやろう」

そしてそう言い、最後のキーを押した。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご