GLM 4 32B 0414 GGUF
モデル概要
モデル特徴
モデル能力
使用事例
🚀 GLM-4-32B-0414 GGUFモデル
このモデルは、大規模言語モデルの分野において、高精度で低メモリ使用量を実現する革新的なアプローチを提供します。様々な量子化方法を用いて、異なるハードウェア環境やメモリ制約に対応し、高性能な推論を可能にします。
🚀 クイックスタート
このモデルを使用するには、まず適切な量子化形式を選択し、それに対応するモデルファイルをダウンロードします。次に、llama.cpp
を使用してモデルを実行します。具体的な手順は以下の通りです。
- 適切な量子化形式を選択する(詳細は「モデル形式の選択」を参照)。
- 対応するモデルファイルをダウンロードする。
llama.cpp
を使用してモデルを実行する。
✨ 主な機能
- 超低ビット量子化:IQ-DynamicGateを用いた1 - 2ビットの量子化方法で、高精度を維持しながら極限のメモリ効率を実現。
- 多様な量子化形式:BF16、F16、Q4_K、Q6_K、Q8_0など、様々な量子化形式をサポートし、ハードウェア環境やメモリ制約に応じて最適な形式を選択可能。
- 高性能推論:ハードウェアの特性を最大限に活かし、高速で高精度な推論を実現。
📦 インストール
このモデルを使用するには、以下の手順でインストールします。
llama.cpp
をクローンする。
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
- 必要な依存関係をインストールする。
make
- 適切な量子化形式のモデルファイルをダウンロードする。
- モデルを実行する。
./main -m path/to/your/model.gguf -n 2048
💻 使用例
基本的な使用法
以下のコマンドを使用して、モデルを起動します。
./main -m GLM-4-32B-0414-bf16.gguf -n 2048
高度な使用法
特定の量子化形式を指定してモデルを使用する場合、以下のようにコマンドを実行します。
./main -m GLM-4-32B-0414-q4_k.gguf -n 2048 --threads 4
📚 ドキュメント
モデル生成詳細
このモデルは、llama.cpp のコミット 19e899c
を使用して生成されました。
超低ビット量子化(IQ-DynamicGate、1 - 2ビット)
最新の量子化方法では、超低ビットモデル(1 - 2ビット)に対して 精度適応型量子化 を導入し、Llama-3-8B でのベンチマークで精度向上が実証されています。このアプローチは、レイヤーごとの戦略を用いて、極限のメモリ効率を維持しながら精度を保持します。
ベンチマークの背景
すべてのテストは、Llama-3-8B-Instruct を使用して行われました。
- 標準的なパープレキシティ評価パイプライン
- 2048トークンのコンテキストウィンドウ
- すべての量子化で同じプロンプトセット
方法
- 動的精度割り当て:
- 最初/最後の25%のレイヤー → IQ4_XS(選択されたレイヤー)
- 中央の50% → IQ2_XXS/IQ3_S(効率を向上)
- 重要コンポーネント保護:
- 埋め込み/出力レイヤーはQ5_Kを使用
- 標準的な1 - 2ビット量子化と比較して、エラー伝播を38%削減
量子化性能比較(Llama-3-8B)
量子化 | 標準PPL | DynamicGate PPL | Δ PPL | 標準サイズ | DGサイズ | Δサイズ | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
キーポイント:
- PPL = パープレキシティ(低いほど良い)
- Δ PPL = 標準からDynamicGateへのPPLの変化率
- 速度 = 推論時間(CPU avx2、2048トークンコンテキスト)
- サイズの違いは、混合量子化のオーバーヘッドを反映
主な改善点:
- 🔥 IQ1_M は、パープレキシティを43.9%大幅に削減(27.46 → 15.41)
- 🚀 IQ2_S は、0.2GBの追加でパープレキシティを36.9%削減
- ⚡ IQ1_S は、1ビット量子化でありながら、39.7%の精度向上を維持
トレードオフ:
- すべてのバリアントは、わずかなサイズの増加(0.1 - 0.3GB)があります。
- 推論速度は同等のままです(差は5%未満)。
これらのモデルを使用するタイミング
📌 モデルをGPU VRAMに収める場合 ✔ メモリ制約のあるデプロイメント ✔ CPUおよびエッジデバイスで、1 - 2ビットのエラーが許容される場合 ✔ 超低ビット量子化の研究
適切なモデル形式の選択
正しいモデル形式を選択するには、ハードウェア能力 と メモリ制約 を考慮する必要があります。
BF16(Brain Float 16) – BF16アクセラレーションが利用可能な場合に使用
- 高速な計算を目的とした16ビット浮動小数点数形式で、良好な精度を維持します。
- FP32と同様のダイナミックレンジを提供しながら、低いメモリ使用量を実現します。
- ハードウェアが BF16アクセラレーション をサポートしている場合に推奨(デバイスの仕様を確認)。
- FP32と比較して、低いメモリ使用量で高性能な推論を実現します。
📌 BF16を使用する場合: ✔ ハードウェアがネイティブの BF16サポート を持っている場合(例:新しいGPU、TPU)。 ✔ メモリを節約しながら、より高い精度が必要な場合。 ✔ モデルを別の形式に再量子化する予定の場合。
📌 BF16を避ける場合: ❌ ハードウェアがBF16をサポートしていない場合(FP32にフォールバックし、低速になる可能性があります)。 ❌ BF16最適化がない古いデバイスとの互換性が必要な場合。
F16(Float 16) – BF16よりも広くサポートされている
- 16ビット浮動小数点数形式で、高い精度を持ちながら、BF16よりも狭い値の範囲を持ちます。
- ほとんどのデバイスで FP16アクセラレーション をサポートしています(多くのGPUや一部のCPUを含む)。
- BF16よりもわずかに低い数値精度ですが、一般的に推論には十分です。
📌 F16を使用する場合: ✔ ハードウェアが FP16 をサポートしているが、BF16 をサポートしていない場合。 ✔ 速度、メモリ使用量、精度のバランスが必要な場合。 ✔ GPU またはFP16計算に最適化された他のデバイスで実行する場合。
📌 F16を避ける場合: ❌ デバイスがネイティブの FP16サポート を持っていない場合(予想よりも低速になる可能性があります)。 ❌ メモリ制約がある場合。
量子化モデル(Q4_K、Q6_K、Q8など) – CPUおよび低VRAM推論用
量子化は、モデルサイズとメモリ使用量を削減しながら、可能な限り精度を維持します。
- 低ビットモデル(Q4_K) → 最小限のメモリ使用量に最適 ですが、精度が低くなる可能性があります。
- 高ビットモデル(Q6_K、Q8_0) → より高い精度 を提供しますが、より多くのメモリを必要とします。
📌 量子化モデルを使用する場合: ✔ CPU で推論を実行し、最適化されたモデルが必要な場合。 ✔ デバイスの VRAMが少なく、フル精度モデルをロードできない場合。 ✔ 適度な精度を維持しながら、メモリ使用量を削減 したい場合。
📌 量子化モデルを避ける場合: ❌ 最大限の精度 が必要な場合(フル精度モデルの方が適しています)。 ❌ ハードウェアに十分なVRAMがあり、より高精度の形式(BF16/F16)が使用できる場合。
超低ビット量子化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
これらのモデルは、極限のメモリ効率 を目的として最適化されており、低電力デバイス または 大規模デプロイメント でメモリが重要な制約となる場合に最適です。
-
IQ3_XS:超低ビット量子化(3ビット)で、極限のメモリ効率 を実現します。
- 使用例:Q4_Kでも大きすぎる 超低メモリデバイス に最適。
- トレードオフ:高位ビット量子化と比較して、精度が低くなります。
-
IQ3_S:小さなブロックサイズで、最大限のメモリ効率 を実現します。
- 使用例:IQ3_XS が過度に制限的な 低メモリデバイス に最適。
-
IQ3_M:中程度のブロックサイズで、IQ3_S よりも高い精度を提供します。
- 使用例:IQ3_S が制限的すぎる 低メモリデバイス に適しています。
-
Q4_K:4ビット量子化で、ブロック単位の最適化 を行い、精度を向上させます。
- 使用例:Q6_K では大きすぎる 低メモリデバイス に最適。
-
Q4_0:純粋な4ビット量子化で、ARMデバイス 用に最適化されています。
- 使用例:ARMベースのデバイス または 低メモリ環境 に最適。
モデル形式選択の概要表
モデル形式 | 精度 | メモリ使用量 | デバイス要件 | 最適な使用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | BF16対応のGPU/CPU | 低メモリで高速な推論 |
F16 | 高 | 高 | FP16対応のデバイス | BF16が利用できない場合のGPU推論 |
Q4_K | 中程度以下 | 低 | CPUまたは低VRAMデバイス | メモリ制約のある環境に最適 |
Q6_K | 中程度 | 中程度 | より多くのメモリを持つCPU | 量子化されたままでも精度が良い |
Q8_0 | 高 | 中程度 | 十分なVRAMを持つCPUまたはGPU | 量子化モデルの中で最も精度が高い |
IQ3_XS | 非常に低い | 非常に低い | 超低メモリデバイス | 極限のメモリ効率と低い精度 |
Q4_0 | 低 | 低 | ARMまたは低メモリデバイス | llama.cppがARMデバイス用に最適化可能 |
含まれるファイルと詳細
GLM-4-32B-0414-bf16.gguf
- モデルの重みが BF16 で保存されています。
- モデルを別の形式に 再量子化 したい場合に使用します。
- デバイスが BF16アクセラレーション をサポートしている場合に最適。
GLM-4-32B-0414-f16.gguf
- モデルの重みが F16 で保存されています。
- デバイスが FP16 をサポートしている場合、特にBF16が利用できない場合に使用します。
GLM-4-32B-0414-bf16-q8_0.gguf
- 出力と埋め込み は BF16 のままです。
- 他のすべてのレイヤーは Q8_0 に量子化されています。
- デバイスが BF16 をサポートしており、量子化バージョンが必要な場合に使用します。
GLM-4-32B-0414-f16-q8_0.gguf
- 出力と埋め込み は F16 のままです。
- 他のすべてのレイヤーは Q8_0 に量子化されています。
GLM-4-32B-0414-q4_k.gguf
- 出力と埋め込み は Q8_0 に量子化されています。
- 他のすべてのレイヤーは Q4_K に量子化されています。
- メモリが制限された CPU推論 に適しています。
GLM-4-32B-0414-q4_k_s.gguf
- 最小の Q4_K バリアントで、精度を犠牲にしてメモリ使用量を削減します。
- 非常に低メモリのセットアップ に最適。
GLM-4-32B-0414-q6_k.gguf
- 出力と埋め込み は Q8_0 に量子化されています。
- 他のすべてのレイヤーは Q6_K に量子化されています。
GLM-4-32B-0414-q8_0.gguf
- 完全に Q8 量子化されたモデルで、より高い精度を提供します。
- より多くの メモリが必要 ですが、高精度を実現します。
GLM-4-32B-0414-iq3_xs.gguf
- IQ3_XS 量子化で、極限のメモリ効率 を実現します。
- 超低メモリデバイス に最適。
GLM-4-32B-0414-iq3_m.gguf
- IQ3_M 量子化で、中程度のブロックサイズで 高い精度 を提供します。
- 低メモリデバイス に適しています。
GLM-4-32B-0414-q4_0.gguf
- 純粋な Q4_0 量子化で、ARMデバイス 用に最適化されています。
- 低メモリ環境 に最適。
- より高い精度が必要な場合は、IQ4_NLを選択してください。
モデルのテスト
もしこれらのモデルが役に立った場合は、ぜひ「いいね」をクリックしてください!また、量子対応のセキュリティチェック を備えた AIパワードのネットワークモニターアシスタント のテストにご協力いただけると幸いです。 👉 無料ネットワークモニター
テスト方法
AIアシスタントのタイプ を選択します。
TurboLLM
(GPT-4o-mini)HugLLM
(Hugginfaceオープンソース)TestLLM
(実験的なCPU専用)
テスト内容
AIネットワークモニタリング用の小型オープンソースモデル の限界を追求しています。具体的には、
- 実際のネットワークサービスに対する 関数呼び出し
- モデルが以下のタスクを処理しながら、どれだけ小さくできるか
- 自動化された Nmapスキャン
- 量子対応チェック
- ネットワークモニタリングタスク
TestLLM – 現在の実験的モデル(llama.cpp、2 CPUスレッド)
- ✅ ゼロコンフィギュレーションセットアップ
- ⏳ 30秒のロード時間(推論は遅いが、APIコストがかからない)
- 🔧 協力者募集中! エッジデバイスAIに興味がある方は、一緒に協力しましょう!
他のアシスタント
🟢 TurboLLM – gpt-4o-mini を使用して、
- 無料ネットワークモニターエージェントで.netコードを実行するカスタムコマンドプロセッサを作成
- リアルタイムのネットワーク診断とモニタリング
- セキュリティ監査
- ペネトレーションテスト (Nmap/Metasploit)
- 🔑 ログインするか、AIアシスタントを統合した無料ネットワークモニターエージェントをダウンロード することで、より多くのトークンを取得できます。
🔵 HugLLM – 最新のオープンソースモデル
- 🌐 Hugging Face推論APIで実行されます。
テストできるコマンドの例
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
- '"Create a cmd processor to .. (what ever you want)" ただし、.netコードを実行するには、無料ネットワークモニターエージェントをインストールする必要があります。これは非常に柔軟で強力な機能です。注意して使用してください!
🔧 技術詳細
GLM-4-32B-0414シリーズモデルの概要
GLMファミリーに新しいメンバー、GLM-4-32B-0414 シリーズモデルが加わりました。これらのモデルは320億のパラメータを持ち、OpenAIのGPTシリーズやDeepSeekのV3/R1シリーズと匹敵する性能を発揮します。また、非常に使いやすいローカルデプロイ機能もサポートしています。
GLM-4-32B-Base-0414
このモデルは、15Tの高品質データで事前学習されており、大量の推論型合成データが含まれています。これが、その後の強化学習拡張の基礎となります。事後学習段階では、対話シナリオに対する人間の嗜好アライメントを行いました。また、棄却サンプリングや強化学習などの技術を用いて、モデルの命令追従、エンジニアリングコード、関数呼び出しの性能を向上させ、エージェントタスクに必要な原子的な能力を強化しました。GLM-4-32B-0414は、エンジニアリングコード、アーティファクト生成、関数呼び出し、検索ベースの質問応答、レポート生成などで良好な結果を達成しています。特に、コード生成や特定の質問応答タスクなどのいくつかのベンチマークでは、GPT-4oやDeepSeek-V3-0324 (671B) などの大規模モデルと同等の性能を発揮します。
GLM-Z1-32B-0414
これは、深い思考能力を持つ推論モデルです。GLM-4-32B-0414をベースに、コールドスタート、拡張強化学習、数学、コード、論理などのタスクでの追加学習を行って開発されました。ベースモデルと比較して、数学的能力と複雑なタスクを解決する能力が大幅に向上しています。学習中には、ペアワイズランキングフィードバックに基づく一般的な強化学習も導入され、モデルの一般的な能力が強化されています。
GLM-Z1-Rumination-32B-0414
これは、反芻能力を持つ深い推論モデルです(OpenAIのDeep Researchに対抗)。通常の深い思考モデルとは異なり、この反芻モデルは、より深く長い思考を行って、よりオープンエンドで複雑な問題を解決することができます(例:2つの都市のAI開発の比較分析とその将来の開発計画の作成)。Z1-Ruminationは、エンドツーエンドの強化学習を拡大し、応答を正解または採点基準で評価することで学習され、深い思考過程で検索ツールを利用して複雑なタスクを処理することができます。このモデルは、研究スタイルの執筆や複雑なタスクで大幅な改善を示しています。
GLM-Z1-9B-0414
これは、上記のすべての技術を用いて学習された小型モデル(9B)です。GLM-Z1-9B-0414は、数学的推論と一般的なタスクで優れた能力を示しています。同サイズのすべてのオープンソースモデルの中で、全体的な性能が上位にランクされています。特に、リソース制約のあるシナリオでは、このモデルは効率と効果の間で優れたバランスを達成し、軽量デプロイを求めるユーザーに強力なオプションを提供します。
デモンストレーション
アニメーション生成
モデル | 説明 |
---|---|
GLM-Z1-32B-0414 | 回転する六角形の中でボールが弾むPythonプログラムを生成。ボールは重力と摩擦の影響を受け、回転する壁に現実的に弾かれます。 |
GLM-4-32B-0414 | HTMLを使用して、回転する六角形の中心から放出される小球のシナリオをシミュレート。ボールと六角形の辺の衝突、ボールに作用する重力を考慮し、すべての衝突は完全弾性と仮定します。 |
ウェブデザイン
モデル | 説明 |
---|---|
GLM-4-32B-0414 | カスタム関数のプロットをサポートする描画ボードを設計。カスタム関数の追加と削除、関数に色を割り当てることができます。 |
GLM-4-32B-0414 | モバイル機械学習プラットフォームのUIを設計。トレーニングタスク、ストレージ管理、個人統計のインターフェースを含みます。個人統計インターフェースは、ユーザーの一定期間のリソース使用量をグラフで表示します。Tailwind CSSを使用してページをスタイル設定し、これらの3つのモバイルインターフェースを単一のHTMLページにタイル表示します。 |
SVG生成
モデル | 説明 |
---|---|
GLM-4-32B-0414 | SVGを使用して、霧のかかった江南のシーンを作成。 |
GLM-4-32B-0414 | SVGを使用して、LLMのトレーニングプロセスを説明。 |
検索ベースの執筆
検索ベースの執筆タスクでは、以下のシステムプロンプトを使用して、モデルに検索結果に基づいて応答させます。
请根据所给搜索返回结果对用户问题进行作答。
## 注意
1. 充分利用和整理收集到的信息,而不是简单的复制粘贴,生成符合用户要求且有深度的专业答案。
2. 所提供信息充分的情况下,你的回答需尽可能延长,从用户意图角度出发,提供具有足够信息量和多角度的回复。
3. 另外,并非所有的搜索结果都与用户问题密切相关,请仔细的甄别、筛选和利用。
4. 客观类问答的答案通常非常简短,你可以适当补充一到两句相关信息,以丰富内容。
5. 请确保你的回复格式美观、可读性强。对于多实体对比或列举,善用列表格式来帮助用户更好的理解信息。
6. 除非用户要求,否则你回答的语言请于用户提问语言保持一致。
7. 在适当情况下在句子末尾使用例如:【0†source】的格式引用搜索结果。
使用する際には、RAG
や WebSearch
などの方法で検索結果を取得し、observation
でラップすることができます。例えば:
[
{
"role": "user",
"content": "Explore the common characteristics of children's literature, with a focus on its narrative techniques and thematic tendencies. This includes narrative techniques: common approaches in children's literature such as first-person, third-person, omniscient narrator, and interactive narration, and their influence on young readers. It also includes thematic tendencies: recurring themes in children's literature such as growth, adventure, friendship, and family, with an analysis of how these themes impact children's cognitive and emotional development. Additionally, other universal features such as the use of personification, repetitive language, symbolism and metaphor, and educational value should be considered. Please provide a detailed analytical report based on academic research, classic examples of children's literature, and expert o"
}
]
📄 ライセンス
このモデルは、MITライセンスの下で提供されています。



