モデル概要
モデル特徴
モデル能力
使用事例
🚀 QwQ-32B-ArliAI-RpR-v4 GGUFモデル
このモデルは、テキスト生成用のモデルで、Qwen/QwQ-32Bをベースモデルとしています。最新の量子化手法を用いており、超低ビットモデルでの高精度な量子化を実現しています。
🚀 クイックスタート
このセクションでは、QwQ-32B-ArliAI-RpR-v4 GGUFモデルの概要と、モデル生成の詳細について説明します。
モデル生成の詳細
このモデルは、llama.cpp のコミット f5cd27b7
を使用して生成されました。
✨ 主な機能
IQ-DynamicGateによる超低ビット量子化 (1 - 2ビット)
最新の量子化手法では、超低ビットモデル (1 - 2ビット) 用の 精度適応型量子化 を導入しており、Llama-3-8B でのベンチマークで改善が実証されています。このアプローチでは、層ごとの戦略を使用して、極端なメモリ効率を維持しながら精度を維持しています。
ベンチマークの詳細
すべてのテストは、Llama-3-8B-Instruct を使用して行われました。
- 標準のパープレキシティ評価パイプライン
- 2048トークンのコンテキストウィンドウ
- すべての量子化で同じプロンプトセット
手法
- 動的精度割り当て
- 最初/最後の25%の層 → IQ4_XS (選択された層)
- 中間の50% → IQ2_XXS/IQ3_S (効率を向上)
- 重要コンポーネントの保護
- 埋め込み/出力層はQ5_Kを使用
- 標準の1 - 2ビットと比較して、誤差伝播を38%削減
量子化性能の比較 (Llama-3-8B)
量子化 | 標準PPL | DynamicGate PPL | ΔPPL | 標準サイズ | DGサイズ | Δサイズ | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
キー:
- PPL = パープレキシティ (低いほど良い)
- ΔPPL = 標準からDynamicGateへの変化率
- 速度 = 推論時間 (CPU avx2, 2048トークンコンテキスト)
- サイズの違いは、混合量子化のオーバーヘッドを反映
主な改善点:
- IQ1_M は、パープレキシティを43.9%大幅に削減 (27.46 → 15.41)
- IQ2_S は、0.2GBの追加でパープレキシティを36.9%削減
- IQ1_S は、1ビット量子化でありながら、39.7%の精度向上を維持
トレードオフ:
- すべてのバリアントは、適度なサイズの増加 (0.1 - 0.3GB) があります。
- 推論速度は、比較的近いままです (<5%の差)。
これらのモデルを使用するタイミング
- GPU VRAMにモデルを収める場合
- メモリ制約のあるデプロイメント
- CPUおよびエッジデバイスで、1 - 2ビットの誤差が許容できる場合
- 超低ビット量子化の研究
適切なモデル形式の選択
正しいモデル形式を選択するには、ハードウェア能力 と メモリ制約 に応じて決定します。
BF16 (Brain Float 16) - BF16アクセラレーションが利用可能な場合に使用
- 高速な計算を目的とした16ビット浮動小数点形式で、良好な精度を維持します。
- FP32と同様のダイナミックレンジを提供しますが、メモリ使用量が少ないです。
- ハードウェアが BF16アクセラレーション をサポートしている場合に推奨 (デバイスの仕様を確認)。
- FP32と比較して、メモリフットプリントを削減した 高性能推論 に最適です。
BF16を使用する場合:
- ハードウェアがネイティブの BF16サポート を持っている場合 (例: 新しいGPU、TPU)
- メモリを節約しながら、より高い精度が必要な場合
- モデルを別の形式に再量子化する予定の場合
BF16を避ける場合:
- ハードウェアがBF16をサポートしていない場合 (FP32にフォールバックし、低速になる可能性があります)
- BF16最適化がない古いデバイスとの互換性が必要な場合
F16 (Float 16) - BF16よりも広くサポートされています
- 16ビット浮動小数点の 高精度 ですが、BF16よりも値の範囲が狭いです。
- FP16アクセラレーションをサポートするほとんどのデバイスで動作します (多くのGPUや一部のCPUを含む)。
- BF16よりもわずかに低い数値精度ですが、一般的に推論には十分です。
F16を使用する場合:
- ハードウェアが FP16 をサポートしているが、BF16 をサポートしていない場合
- 速度、メモリ使用量、および精度のバランスが必要な場合
- FP16計算に最適化された GPU または他のデバイスで実行している場合
F16を避ける場合:
- デバイスがネイティブのFP16サポートを持っていない場合 (予想よりも低速になる可能性があります)
- メモリ制約がある場合
量子化モデル (Q4_K, Q6_K, Q8, など) - CPUおよび低VRAM推論用
量子化は、モデルサイズとメモリ使用量を削減しながら、可能な限り精度を維持します。
- 低ビットモデル (Q4_K) - 最小限のメモリ使用量に最適、精度が低い場合があります。
- 高ビットモデル (Q6_K, Q8_0) - より高い精度、より多くのメモリが必要です。
量子化モデルを使用する場合:
- CPU で推論を実行し、最適化されたモデルが必要な場合
- デバイスのVRAMが少なく、完全精度のモデルをロードできない場合
- 適度な精度を維持しながら、メモリフットプリントを削減したい場合
量子化モデルを避ける場合:
- 最大の精度が必要な場合 (完全精度のモデルが適しています)
- ハードウェアに十分なVRAMがあり、より高精度の形式 (BF16/F16) が使用できる場合
超低ビット量子化 (IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0)
これらのモデルは、極端なメモリ効率 を目的として最適化されており、メモリが重要な制約となる 低電力デバイス または 大規模デプロイメント に最適です。
- IQ3_XS: 超低ビット量子化 (3ビット) で、極端なメモリ効率 を実現。
- 使用例: Q4_Kでも大きすぎる 超低メモリデバイス に最適。
- トレードオフ: 高ビット量子化と比較して、精度が低い。
- IQ3_S: 最大のメモリ効率を実現する小さなブロックサイズ。
- 使用例: IQ3_XS が過度に激しい 低メモリデバイス に最適。
- IQ3_M: IQ3_S よりも高い精度を実現する中間ブロックサイズ。
- 使用例: IQ3_S が制限的すぎる 低メモリデバイス に適しています。
- Q4_K: ブロック単位の最適化により、精度が向上する4ビット量子化。
- 使用例: Q6_K では大きすぎる 低メモリデバイス に最適。
- Q4_0: ARMデバイス用に最適化された純粋な4ビット量子化。
- 使用例: ARMベースのデバイス または 低メモリ環境 に最適。
モデル形式選択の概要表
モデル形式 | 精度 | メモリ使用量 | デバイス要件 | 最適な使用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | BF16対応GPU/CPU | メモリを削減した高速推論 |
F16 | 高 | 高 | FP16対応デバイス | BF16が利用できない場合のGPU推論 |
Q4_K | 中低 | 低 | CPUまたは低VRAMデバイス | メモリ制約のある環境に最適 |
Q6_K | 中 | 中程度 | より多くのメモリを持つCPU | 量子化されたままで、より高い精度 |
Q8_0 | 高 | 中程度 | 十分なVRAMを持つCPUまたはGPU | 量子化モデルの中で最も高い精度 |
IQ3_XS | 非常に低 | 非常に低 | 超低メモリデバイス | 極端なメモリ効率と低精度 |
Q4_0 | 低 | 低 | ARMまたは低メモリデバイス | llama.cppがARMデバイス用に最適化 |
📦 インストール
このセクションでは、モデルのインストールに関する情報は提供されていません。
💻 使用例
このセクションでは、モデルの使用例に関する情報は提供されていません。
📚 ドキュメント
含まれるファイルと詳細
QwQ-32B-ArliAI-RpR-v4-bf16.gguf
- モデルの重みは BF16 で保存されています。
- モデルを別の形式に 再量子化 したい場合に使用します。
- デバイスが BF16アクセラレーション をサポートしている場合に最適。
QwQ-32B-ArliAI-RpR-v4-f16.gguf
- モデルの重みは F16 で保存されています。
- デバイスが FP16 をサポートしている場合に使用します。特にBF16が利用できない場合に便利です。
QwQ-32B-ArliAI-RpR-v4-bf16-q8_0.gguf
- 出力と埋め込み は BF16 のままです。
- 他のすべての層は Q8_0 に量子化されています。
- デバイスが BF16 をサポートしており、量子化バージョンが必要な場合に使用します。
QwQ-32B-ArliAI-RpR-v4-f16-q8_0.gguf
- 出力と埋め込み は F16 のままです。
- 他のすべての層は Q8_0 に量子化されています。
QwQ-32B-ArliAI-RpR-v4-q4_k.gguf
- 出力と埋め込み は Q8_0 に量子化されています。
- 他のすべての層は Q4_K に量子化されています。
- メモリが制限された CPU推論 に適しています。
QwQ-32B-ArliAI-RpR-v4-q4_k_s.gguf
- 最小の Q4_K バリアントで、精度を犠牲にしてメモリ使用量を削減します。
- 非常に低メモリの設定 に最適。
QwQ-32B-ArliAI-RpR-v4-q6_k.gguf
- 出力と埋め込み は Q8_0 に量子化されています。
- 他のすべての層は Q6_K に量子化されています。
QwQ-32B-ArliAI-RpR-v4-q8_0.gguf
- 完全に Q8 量子化されたモデルで、より高い精度を提供します。
- より多くの メモリ が必要ですが、高精度を提供します。
QwQ-32B-ArliAI-RpR-v4-iq3_xs.gguf
- IQ3_XS 量子化で、極端なメモリ効率 を実現。
- 超低メモリデバイス に最適。
QwQ-32B-ArliAI-RpR-v4-iq3_m.gguf
- IQ3_M 量子化で、中間のブロックサイズを提供し、精度を向上。
- 低メモリデバイス に適しています。
QwQ-32B-ArliAI-RpR-v4-q4_0.gguf
- 純粋な Q4_0 量子化で、ARMデバイス 用に最適化。
- 低メモリ環境 に最適。
- より高い精度が必要な場合は、IQ4_NLを選択してください。
モデルのテストに関する情報
もしこれらのモデルが役に立った場合は、「いいね」をクリックしてください!また、量子対応のセキュリティチェックを備えた AIパワードのネットワークモニターアシスタント のテストを手伝ってください。 無料のネットワークモニター
テスト方法
AIアシスタントのタイプ を選択します。
TurboLLM
(GPT-4o-mini)HugLLM
(Hugginfaceオープンソース)TestLLM
(実験的なCPU専用)
テスト内容
AIネットワークモニタリング用の小規模オープンソースモデル の限界を追求しています。具体的には、
- ライブネットワークサービスに対する 関数呼び出し
- モデルがどれだけ小さくなっても 対応できるか:
- 自動化された Nmapスキャン
- 量子対応チェック
- ネットワークモニタリングタスク
TestLLM - 現在の実験的モデル (2つのCPUスレッドでのllama.cpp)
- ゼロ構成設定
- 30秒以上のロード時間 (低速な推論ですが、APIコストがかからない)
- 協力者を募集しています! エッジデバイスAIに興味がある方は、一緒に協力しましょう!
他のアシスタント
- TurboLLM - gpt-4o-mini を使用して:
- 無料のネットワークモニターエージェントで.NETコードを実行するためのカスタムコマンドプロセッサを作成
- リアルタイムのネットワーク診断とモニタリング
- セキュリティ監査
- ペネトレーションテスト (Nmap/Metasploit)
- ログインするか、統合されたAIアシスタント付きの無料のネットワークモニターエージェントをダウンロード することで、より多くのトークンを取得できます。
- HugLLM - 最新のオープンソースモデル:
- Hugging Face推論APIで実行
テストできるコマンドの例
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
- '"Create a cmd processor to .. (what ever you want)" 注: この機能は非常に柔軟で強力ですが、注意して使用してください。.NETコードを実行するには、無料のネットワークモニターエージェントをインストールする必要があります。
🔧 技術詳細
RpR v4の変更点
繰り返しとインパーソネーションの削減
RpR v3の創造性と独創的な思考をさらに高めるために、より高度なフィルタリング手法を用いて、LLMが似たようなフレーズを繰り返したり、ユーザーの代わりに話したりする例を削除しました。繰り返しやインパーソネーションが発生する場合は、RpRデータセットではなく、ベースのQwQモデルの学習方法に起因する可能性があります。
学習シーケンス長の増加
学習シーケンス長を16Kに増やして、長いチャットでも認識とメモリを向上させました。
RpRシリーズの概要: RPMaxに基づく推論機能の強化
RpR (RolePlay with Reasoning) は、ArliAIによる新しいモデルシリーズです。このシリーズは、RPMaxシリーズで開発された成功したデータセットのキュレーション手法と学習方法を直接継承 しています。
RpRモデルは、RPMaxで使用された同じキュレートされた、重複排除されたRPおよび創造的な文章のデータセットを使用しており、多様性に焦点を当てることで、高い創造性を確保し、コンテキスト間の繰り返しを最小限に抑えています。RPMaxに慣れたユーザーは、他のRP用に微調整されたモデルとは異なる、独特で繰り返しのない文章スタイルを認識するでしょう。
QwQが最初の高性能なオープンソースの推論モデルとしてリリースされ、簡単に学習できるようになったことで、利用可能な命令と創造的な文章の推論データセットには、各例に1つの応答しか含まれていないことが明らかになりました。このような単一応答のデータセットを推論モデルの学習に使用すると、長いマルチターンチャットでの出力品質が低下することがわかりました。そのため、Arli AIは、推論機能を備えた長いマルチターンチャットが可能な本格的なRPモデルを作成することにしました。
RpRを作成するために、まず既存の信頼できるRPMaxデータセットを推論データセットに再処理することで、推論RPデータセットを作成しました。これは、ベースのQwQ命令モデル自体を使用して、RPMaxデータセットの会話例の各ターンに対して推論プロセスを作成し、それをさらに改良して、推論がデータセットからの実際の応答例と一致するようにしました。
もう1つの重要な点は、モデルが推論時に遭遇するのと同じ方法で推論ブロックを提示する例で学習するようにすることです。つまり、コンテキスト内で推論ブロックを見ることがないようにすることです。これを実現するために、学習実行は、手動でテンプレートなしのセグメントデータセットを使用して行われ、モデルがコンテキスト内で推論ブロックを見ることがないようにしました。これは、推論時にモデルが使用される方法と同じです。
この方法でこのデータセットでQwQを学習させた結果、長いマルチターンRPチャットでも一貫して首尾一貫した興味深い出力が得られます。これは、私たちの知る限り、RPと創造的な文章用に学習された最初の正しく学習された推論モデルです。
モデルにアクセスするには、ArliAIのウェブサイト を訪問してください。また、モデルランキングページ も用意しています。質問がある場合は、新しいDiscordサーバー または サブレディット で問い合わせてください。
モデルの説明
QwQ-32B-ArliAI-RpR-v4は、RpRシリーズの3番目のリリースです。これは、320億パラメータのモデルで、RpRデータセットを使用して微調整されており、キュレートされたRPMaxデータセットと、長いマルチターンチャットで推論能力を維持する手法を組み合わせています。
推奨サンプラー
- RpRモデルは、繰り返しペナルティタイプのサンプラー、特にXTCやDRYなどの高度なサンプラーではうまく機能しません。
- シンプルなサンプラー設定を使用し、長い時間推論できるようにする (最大トークン数を高く設定) ことが推奨されます。
- このリポジトリのファイルセクションにアップロードされたSTマスターエクスポートをダウンロードすることもできます。
最初に以下の設定を試すことをお勧めします。
- Temperature: 1.0
- MinP: 0.02
- TopK: 40
- Response Tokens: 2048+
仕様
- ベースモデル: QwQ-32B
- 最大コンテキスト長: Yarnを使用すると最大128K (ネイティブでは32K、ベースのQwQと同じ)
- パラメータ数: 32B
- 推論モデル: はい
学習の詳細
- シーケンス長: 16384
- エポック数: 1エポックの学習 (RPMax手法から継承)
- 微調整手法: RS-QLORA+ (Rank-Stabilized LoRA + LoRA Plus 8x)
- ランク/アルファ: 128ランク、128アルファ
- 学習率: 0.00001
- スケジューラー: Rex
- 勾配蓄積: 32
量子化
- BF16: https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v4
- GGUF: https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v4-GGUF
STで推論モデルを正しく使用する方法
一般的に、推論モデルを使用する場合は、以下の設定を確認する必要があります。
- 接頭辞を
のみに設定し、接尾辞を のみに設定し、スペースや改行を含めないでください。 - 返信は
で始まるように設定する。 - 常にキャラクター名を追加するオプションをオフにする。
- 名前を含めるオプションを never に設定する。
- いつものように、チャットテンプレートも使用するモデルに合わせる必要があります。
注: 推論モデルは、名前を含めるオプションを never に設定した場合にのみ適切に動作します。これは、モデルがユーザーターンのeosトークンの後に
他のサンプラーパラメータは、いつものように自由に設定できます。
推論ブロック内に推論が表示されない場合は、設定がまだ間違っていて私の例に従っていないか、STバージョンが古くて推論ブロックの自動解析機能がない可能性があります。
応答全体が推論ブロック内に表示される場合は、
RPMaxの基礎 (データセットと学習哲学)
目標: 繰り返しの削減と創造性の向上
RPMaxとRpRの両方で使用されるデータセットのキュレーションの目標は、繰り返しを削減し、モデルがさまざまな状況で創造的に文章を書く能力を向上させることです。つまり、これは、さまざまな状況で予測可能なトロープに陥ることなく、非常に異なる応答を出力するモデルです。
繰り返しと創造性とは何か
まず、創造性は、モデルが生成できる出力の多様性を意味するはずです。創造性を散文的な文章と混同しないでください。モデルが小説の作家のように快適な文章を書く場合、これは創造的な文章ではありません。これは、単にモデルがある種の快適な文章スタイルを持っているだけです。したがって、良い文章を書くモデルが必ずしも創造的なモデルであるとは限りません。
繰り返しと創造性は本質的に相互に関連しているため、モデルが繰り返している場合、そのモデルは非創造的であるとも言えます。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。



