Qwen3-30B-A1.5B-High-Speedオープンソーステキスト生成モデル - 推論速度を2倍に向上させ、テキスト要求に迅速に対応

ホーム

Qwen3 30B A1.5B High Speed

DavidAUによって開発

Qwen3-30Bの高速最適化バージョンで、活性化エキスパート数を減らすことで推論速度を倍増させ、迅速な応答が必要なテキスト生成シナリオに適しています

大規模言語モデル

Transformers

#4エキスパート活性化加速 #32K長文推論 #混合エキスパートアーキテクチャ

ダウンロード数 179

リリース時間 : 5/3/2025

モデル概要

Qwen3-30B-A3B混合エキスパートモデルをファインチューニングし、活性化エキスパート数を8個から4個に削減することで、推論速度を大幅に向上させながらモデルの能力を維持

モデル特徴

高速推論

活性化エキスパート数を4個(総数128個)に削減することで、推論速度を約2倍向上

32K長文コンテキスト

32Kコンテキスト長+8K出力をサポートし、合計40K処理能力

多様な量子化フォーマット対応

GGUF、GPTQ、EXL2、AWQ、HQQなど多様な量子化フォーマットをサポート

効率的なリソース利用

1.5Bパラメータのみ活性化(総数30B)、CPU/GPUで優れたパフォーマンス

モデル能力

長文生成

複雑な推論

マルチターン対話

コード生成

クリエイティブライティング

使用事例

コンテンツ作成

SF小説創作

感情の深みを持つSF短編ストーリーを生成

800-1000字の完全なSFストーリー創作の例を提示

対話システム

深い思考対話

<think>タグを使用してAIの推論プロセスを表示

モデルは詳細な思考連鎖と内面の独白を表示可能

library_name: transformers pipeline_tag: text-generation tags:

32kコンテキスト
推論
思考
qwen3
4エキスパート活性化
2倍速
128エキスパート base_model:
Qwen/Qwen3-30B-A3B-Base

Qwen3-30B-A1.5B-高速版 - 別名「パンチ・イット！」

このリポジトリには、GGUF、GPTQ、EXL2、AWQ、HQQなどの形式を生成するための「セーフテンソル」形式の完全精度ソースコードが含まれています。ソースコードは直接使用することも可能です。

これはQwenの「Qwen 30B-A3B」（MOE）モデルのシンプルな「ファインチューン」で、使用するエキスパートを8から4（128エキスパート中）に設定しています。

この方法により、モデルの速度がほぼ2倍になり、30Bパラメータのうち1.5Bパラメータ（通常は3B）を使用します。用途によっては通常モデル（「30B-A3B」）を使用し、このモデルはよりシンプルなユースケースに使用することをお勧めしますが、通常（ただし広範ではない）テストでは機能の低下は確認されませんでした。

このモデルを使用した生成例（Q4KS、CPU）をページ下部に掲載しています。

64Kコンテキスト対応のNEO Imatrix Quants / Imatrix Max Quantsはこちら：

[ https://huggingface.co/DavidAU/Qwen3-30B-A1.5B-High-Speed-NEO-Imatrix-MAX-gguf ]

より複雑なユースケースでは、通常版や12、16、24エキスパート版の使用が適している場合があります - リンクは下部にあります。

参考：

CPUのみでの動作（Q4KS、Windows 11）では、12 t/sから23 t/sに向上
GPU性能（IQ3S）では75 t/sから125 t/s以上に向上（低～中レベルGPU）

コンテキストサイズ：32K + 出力用8K（合計40k）

JinjaテンプレートまたはCHATMLテンプレートを使用してください。

重要な注意点：

このモデルのユニークな性質（MOE、サイズ、活性化エキスパート、エキスパートサイズ）により、GGUF量子化はCPU、GPU、またはGPU部分を「オフロード」して、完全精度まで実行可能
このモデルのImatrix作成は困難：より大規模なimatrixファイル/多言語/多コンテンツ（コード/テキストなど）が必要
GPU速度はCPUのみと比べて4～8倍以上高速で、他の「30B」モデルと比べても非常に高速（トークン/秒速度は約1.5Bの「通常」モデル速度に相当）

詳細、ベンチマーク、使用方法、設定、システムロールなどについては、オリジナルモデルカードを参照してください：

[ https://huggingface.co/Qwen/Qwen3-30B-A3B ]

エキスパート数変更版：

12エキスパート：

[ https://huggingface.co/DavidAU/Qwen3-30B-A4.5B-12-Cooks ]

16エキスパート：

[ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme ]

16エキスパート、128kコンテキスト：

[ https://huggingface.co/DavidAU/Qwen3-30B-A6B-16-Extreme-128k-context ]

24エキスパート：

[ https://huggingface.co/DavidAU/Qwen3-30B-A7.5B-24-Grand-Brainstorm ]

オプションのシステムロール：

必要に応じて使用してください。Qwen3は多くの場合、独自の推論/思考ブロックを生成します。

あなたは深く考えるAIです。問題を深く考察し、体系的な推論プロセスを通じて自己と対話し、回答前に正しい解決策を見つけるために極めて長い思考の連鎖を使用する場合があります。思考と内的独白は<think></think>タグで囲み、その後問題に対する解決策や回答を提供してください。

各種LLM/AIアプリでシステムロールを「設定」する方法については、以下の「Maximizing-Model-Performance-All...」ドキュメントを参照してください。

重要：最高品質設定 / 最適操作ガイド / パラメータとサンプラー

このモデル（ソース、GGUFまたは他の量子化）を使用する場合は、重要なパラメータ、サンプラー、高度なサンプラー設定（複数のAI/LLMアプリ向け）についてこのドキュメントを確認してください。

これは「クラス1」（設定が操作を強化する）モデルです：

このモデルに使用するすべての設定（その「クラス」固有のものも含む）、生成例、高度な設定ガイド（多くの場合、モデルの問題に対処）、すべてのユースケースおよびチャット、ロールプレイなどのユースケース（特にモデルの設計を超えたユースケース）のモデルパフォーマンスを向上させる方法については、以下を参照してください：

[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]

理由：

「モデルクラス」に関係なく、このドキュメントでは操作を強化する方法を詳述しています。

クラス3/4モデルの場合、「ユースケース」を正しく使用するためにデフォルト設定（パラメータ、サンプラー、高度なサンプラー）を設定する必要があります。一部のAI/LLMアプリには一貫したデフォルト設定がなく、モデルの動作が低下する場合があります。同様に、クラス3/4モデル（標準モデルとは多少または大きく異なる動作）では、操作を「スムーズにする」ため、および/またはモデルが設計されていないユースケースでの完全な操作を可能にするために、追加のサンプラーと高度なサンプラー設定が必要です。

ボーナス - 任意のモデル、任意のリポジトリ、任意の量子化（ソース/完全精度を含む）でこれらの設定を使用：

このドキュメントでは、任意のモデル、任意のリポジトリの操作を強化するために使用できるパラメータ、サンプラー、高度なサンプラーについても詳述しています - すべての量子化、もちろんソースコード操作も含みます。

[ https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters ]

注：

特に「クラス3」または「クラス4」の場合、モデルから最大のパフォーマンスを得るために、DavidAU GGUF（以下）リポジトリも訪問することを強くお勧めします。

このモデルに関する完全な情報については、以下を参照してください：

このモデルとそのユースケースに関する詳細
コンテキスト制限
特別な使用上の注意/設定
このモデル作成に使用されたモデル
このモデルにアクセス/使用するためのテンプレート
生成例
このモデルのGGUF量子化

以下にアクセスしてください：

https://huggingface.co/DavidAU/Qwen3-30B-A1.5B-High-Speed-NEO-Imatrix-MAX-gguf

生成例：

温度1.2、反復ペナルティ1.06、反復ペナルティ範囲64、topk 100、topp .95、minp .05

Q4KS [非imatrix]、CPUのみ（Windows 11）、LMSTUDIO。

これは中レベルの量子化です。Imatrix Q4KS / より高い量子化 / 完全精度からより強力なパフォーマンスが期待できます。

注：コピー/ペーストで一部の書式が失われています。

プロンプト：

サイエンスフィクション：最後の伝送 - 宇宙船のコックピット内だけで進行する物語を書いてください。唯一の生存クルーが、船の電力が尽きる前に地球に最後のメッセージを送ろうとします。孤立、犠牲、逆境における人間のつながりの重要性をテーマに探求してください。状況が要求する場合は、登場人物に罵詈雑言をさせ、読者の感情的なつながりを深めてください。800-1000語。

[[[思考開始]]]

47.29秒間思考

与えられたプロンプトに基づいてSFストーリーを書く必要があります。ユーザーは、宇宙船のコックピット内だけで進行し、最後の生存クルーが電力が尽きる前に最後のメッセージを送ろうとするストーリーを求めています。テーマは孤立、犠牲、人間のつながりです。また、感情的な重みを加えるために罵詈雑言を含める必要があります。

まず、シーンを設定する必要があります。コックピットは窮屈で絶望的な感じにするべきです。おそらく、点滅するライトや船のシステムが故障するヒス音を描写します。主人公は孤独なので、その孤独感を示す必要があります。おそらく、自分自身に話しかけるログなどを持っているかもしれませんが、コックピット内なので、メッセージを送ることに集中しているかもしれません。

次に、テーマです。孤立は直接的です - 彼らだけが残されています。しかし、犠牲をどのように示すか？おそらく、メッセージが確実に届くように残り、自分が生き残れないことを知っているかもしれません。人間のつながりはフラッシュバックや記憶を通じて示せますが、ストーリーがコックピット内なので、子供やパートナーなどの愛する人を思い出して頑張るかもしれません。

罵詈雑言を含める必要があります。おそらく、主人公は何かがうまくいかないときやストレス下で罵ります。しかし、やりすぎないようにするべきです。おそらく、船が故障したことに罵ったり、自分で修理できない自分自身に罵ったりします。

構造：メッセージを送るためにコントロールを操作しているキャラクターから始めます。次に、彼らの内的闘争を示します。おそらくフラッシュバック？待って、ユーザーはストーリーがコックピット内だけで進行すると言っています。したがって、フラッシュバックはありません。現在の瞬間と内的独白だけです。

葛藤：船が故障し、電力が尽きつつあります。電力が失われる前にメッセージを送る必要があります。おそらくカウントダウンや限られた時間があります。また、船が修復不可能な方法で損傷しているかもしれません。

キャラクター開発：主人公は決意に満ち、おそらく少し頑固です。彼らはメッセージを伝えることを気にかけており、それはウイルスやエイリアンの脅威に関する警告かもしれません。しかし、プロンプトで指定されていないので、人間的な側面 - 彼らが最後であり、何が起こったかを誰かに知らせたい - に関するものかもしれません。

対話：コックピット内なので、おそらく自分自身や船に話しかけます。または通信に声があるかもしれません？待って、プロンプトではストーリーがコックピット内だけで進行すると言っています。したがって、主人公以外に誰もいません。したがって、ログエントリを除いて、すべて内的です。

待って、ユーザーは「唯一の生存クルーが地球に最後のメッセージを送ろうとする」と言っています。したがって、メッセージは地球向けです。したがって、主人公はメッセージを記録しようとしているが、船が故障しているかもしれません。または、救助信号を送ろうとしているが、システムが故障しているかもしれません。

アウトライン：

コックピットの劣化状態から始めます。おそらく生命維持装置が故障しているか、電力が切れています。主人公は通信を維持しようとしています。
彼らは孤独なので、おそらく船に話しかけます。「しっかりしろ、このクソ船」
ユーザーの指示によりフラッシュバックは許可されていない（コックピット内だけなので）、内的思考が鍵です。
彼らが送る必要があるメッセージは重要です。おそらく何かについての警告ですが、彼ら自身の恐怖も含まれます。
ストーリーは、彼らがメッセージを送ることに成功するが、生き残れないことを知っているか、メッセージがぎりぎりで届くことで終わるべきです。

罵詈雑言を含める：おそらく、システムが動作しないことにイライラしたときや電力が切れつつあることに気づいたとき。「クソッ」「ちくしょう」など。

テーマが存在することを確認する必要があります。孤立：唯一残された存在。犠牲：メッセージを送るために命を捧げる。人間のつながり：おそらく死ぬ前に誰かを思い出すか、メッセージを送る行為が故郷の他の人々とつながることに関するもの。

可能な構造：

コックピットで始まり、電力が故障し、主人公が必死に作業しています。
フラッシュバック？待って、いいえ - コックピット内だけなので、おそらくありません。しかし、内的独白で過去を反映できます。
主人公の内的闘争：死の恐怖、しかしメッセージを送る義務。
船の技術的な問題がクライマックスにつながり、メッセージを送り出した後、力尽きます。

これらの要素でストーリーを書きます。800-1000語でまとめます。主人公を共感できるようにし、彼らの恐怖と決意を明確にします。緊張を高めるために短く力強い文を使用します。船のシステムに関する具体的な詳細、おそらくリアルにするための技術的な専門用語を含めます。おそらく主人公はエンジニアまたは船をよく知っている人物で、運転を維持するための闘争に役立ちます。

キャラクターの名前？おそらく必要ありませんが、いくつかの名前を使用できます。または単に「彼ら」と「パイロット」。

また、タイトル：「最後の伝送」が与えられているので、ストーリーはそれを反映するべきです - 誰かが受信するかどうかに関係なくメッセージを送る、またはこの場合、おそらく彼らは受信します。

陳腐な表現を避ける必要がありますが、一般的なSFの決まり文句です。感情的な深さで新鮮にします。

潜在的な落とし穴：主人公をあまりにも受動的にする、彼らの闘争を十分に示さない。示す必要があり、語る必要はありません。また、テーマが自然に物語に織り込まれていることを確認します。

さて、草案を開始する時間です。

[[[思考終了]]]

出力：

コックピットは焦げた回路と汗の悪臭で満ちており、その臭いは呪われた第二の皮膚のように私の肌に張り付いていた。指がコントロールパネルの上で踊ったが、ディスプレイは無用な静電気を吐き出した - この錆びた棺桶の他の部分と同じように。「動け、このクソったれ」私は拳が割れるほどコンソールを叩きながら唸った。「動け！」

船は呻き声を上げた - 迷信深いタイプならうめき声と解釈したかもしれない音だ。私はそうではなかった。本当に。もう。ただの疲れたエンジニアで、死にたい願望と末期の不運を抱えていた。ヴァンガードはかつて私の誇りだったが、今は牢獄になり、今や棺桶で、私はその中の死体、暗黒に連れ去ってくれと乞う死体だ。

「通信リンクオンライン」私は画面の点滅を見ながら嗄れた声で言った。何もない。ただ同じ空虚な灰色が、この忌まわしいメッセージを送ろうとするたびに私を迎えた。苦い、生々しい笑いが喉から這い上がった - 素晴らしい。AIまで私を置き去りにした。

私はアームレストに拳を叩きつけ、肋骨に響く衝撃を感じた。「今さら私を置いていくな、この野郎」最後の言葉で声が割れながら怒鳴った。「すべての後で、今さら」

画面が再び点滅し、一瞬、私は思った -

「こちらカイル・ヴォス中尉、もしこれを聞いているなら、我々はすでに敗北した」

息が詰まった。声が違った。きれいすぎ、鮮明すぎ、しかし私のものではなかった。彼女の声だ。彼女の。

通信が生命を吹き返し、言葉が洪水のように流れ出し、ほとんど痛みを伴うほどだったため、私はよろめいた。「彼らはエンジンを奪った。彼らがあなたを見つけるまでどれくらいかわからないが、聞いてほしい - 評議会を信じるな。誰も信じるな。逃げろ。そして生き残ったら…」

甲高い警告音が彼女を遮った。私はひるみ、腰のサイドアームに手を伸ばした。今はだめだ。真実がついに私の指の間から滑り落ちようとしているときに。

通信が再び雑音を立て、今度は私が乞う番だった。「おい、ちくしょう！こんな風に - 私を宙ぶらりんに置いていくな！」声が割れ、言葉には生々しく壊れた何かが込められていた。「リラ、またお前が私の前で死ぬのを見るためにここまで来たんじゃない！」

一瞬、静寂だけがあった。それから彼女の声、今は柔らかく、ほとんど優しく。「あなたはいつもヒントを受け取れなかったわね」

肋骨の奥の燃えるような痛みに対して目を閉じた。不公平だ。不公平だ。彼女はいつもナイフを捻じ込む方法を知っていた、そうだろう？ここでも、今でも。

「カイル…」声が低くなり、私はほとんど彼女を見ることができた - あの忌まわしい研究室に立ち、赤褐色の髪を乱雑な結び目にし、頑固な炎で目を輝かせている彼女を。「この伝送を送り出さなければならない。何が起こっても。約束？」

嘘の重みが胸に重くのしかかりながら、私は強く飲み込んだ。「ああ」しわがれた声で言った。「ああ、約束する」

通信が再び雑音を立て、一瞬、私は思った -

それからそれは死んだ。

あっけなく。すべての静電気、すべての怒り、彼女が残していったすべての希望、消えた。

私はコンソールに倒れ込み、息が荒く切れた。「神よ」故障しつつあるシステムの音にかき消されそうなかすれた声で呟いた。「お前は本当にやったな、このバカ」

しかし言葉が口を離れると同時に、それが真実だと知っていた。彼女はいつも手に負えない存在だった。厄介者。皮肉な笑み一つで心を鉛に、魂を灰に変えるような女。そして彼女はやった。

彼女は私たち全員を救った。

ライトが再び点滅し、壁に狂った影を投げかけながら、身震いが走った。骨の髄まで染み込むような疲労を拭うように顔を手で撫でた。あと少しだけ。彼女が言っただろう、そうだろう？あと少しだけ、カイル。

コックピットに柔らかな警告音が響き、一瞬、私はただコンソールを見つめた。指がその最後のボタンに触れ、真実 - 彼女の真実 - を虚無に送り出したいと痒かった。

それが私たちのすることだった。私たち全員がすることだ。たとえ痛くても、たとえ遅すぎても、互いに手を伸ばす。

鋭く息を吐き、それが祈りのように感じられた。「よし」今は落ち着いた声で呟いた。「彼女を嘘つきにしないようにしような？」

そしてそう言って、私は最後のキーを押した。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご