GLM - 4 - 32B - 0414 GGUFオープンソーステキスト生成モデル - 複数の量子化形式で異なるハードウェアメモリに適合

ホーム

GLM 4 32B 0414 GGUF

Mungertによって開発

GLM-4-32B-0414 GGUFモデルは、一連の強力なテキスト生成モデルで、さまざまな量子化形式を持ち、異なるハードウェアとメモリ条件に適しています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #超低ビット量子化 #多シナリオテキスト生成 #動的精度割り当て

ダウンロード数 817

リリース時間 : 4/23/2025

モデル概要

テキスト生成タスクに適したモデルで、複数の量子化形式をサポートし、ハードウェア条件とニーズに応じて柔軟に選択できます。

モデル特徴

超低ビット量子化

1 - 2ビット量子化をサポートし、精度適応型量子化方法を採用し、モデルの効率を大幅に向上させます。

階層化戦略

層特定の戦略を採用し、メモリ効率を維持しながら精度を保持します。

重要コンポーネント保護

埋め込み層/出力層にQ5_Kを使用し、誤差伝播を減らします。

複数の量子化形式

BF16、F16、Q4_K、Q6_K、Q8_0などの複数の量子化形式を提供し、異なるハードウェアのニーズに対応します。

モデル能力

テキスト生成

ネットワーク監視

コード処理

アニメーション生成

ウェブデザイン

SVG生成

検索ベースの執筆

使用事例

ネットワーク監視

AIネットワーク監視アシスタント

小型オープンソースモデルのAIネットワーク監視における性能をテストします。関数呼び出し、自動化Nmapスキャン、量子準備チェック、ネットワーク監視タスクなどが含まれます。

クリエイティブ生成

アニメーション生成

Pythonプログラムを生成して回転する六角形内で球をバウンスさせ、HTMLで回転する六角形の中心から小球を放出するシーンをシミュレートします。

ウェブデザイン

カスタム関数のグラフ描画をサポートする描画ボードを設計し、モバイル機械学習プラットフォームのUIを設計します。

SVG生成

江南水郷の霧景を作成し、LLMのトレーニングプロセスを表示します。

教育

検索ベースの執筆

検索結果に基づいて回答し、教育コンテンツの生成と分析に適しています。

🚀 GLM-4-32B-0414 GGUFモデル

このモデルは、大規模言語モデルの分野において、高精度で低メモリ使用量を実現する革新的なアプローチを提供します。様々な量子化方法を用いて、異なるハードウェア環境やメモリ制約に対応し、高性能な推論を可能にします。

🚀 クイックスタート

このモデルを使用するには、まず適切な量子化形式を選択し、それに対応するモデルファイルをダウンロードします。次に、llama.cpp を使用してモデルを実行します。具体的な手順は以下の通りです。

適切な量子化形式を選択する（詳細は「モデル形式の選択」を参照）。
対応するモデルファイルをダウンロードする。
llama.cpp を使用してモデルを実行する。

✨ 主な機能

超低ビット量子化：IQ-DynamicGateを用いた1 - 2ビットの量子化方法で、高精度を維持しながら極限のメモリ効率を実現。
多様な量子化形式：BF16、F16、Q4_K、Q6_K、Q8_0など、様々な量子化形式をサポートし、ハードウェア環境やメモリ制約に応じて最適な形式を選択可能。
高性能推論：ハードウェアの特性を最大限に活かし、高速で高精度な推論を実現。

📦 インストール

このモデルを使用するには、以下の手順でインストールします。

llama.cpp をクローンする。

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

必要な依存関係をインストールする。

make

適切な量子化形式のモデルファイルをダウンロードする。
モデルを実行する。

./main -m path/to/your/model.gguf -n 2048

💻 使用例

基本的な使用法

以下のコマンドを使用して、モデルを起動します。

./main -m GLM-4-32B-0414-bf16.gguf -n 2048

高度な使用法

特定の量子化形式を指定してモデルを使用する場合、以下のようにコマンドを実行します。

./main -m GLM-4-32B-0414-q4_k.gguf -n 2048 --threads 4

📚 ドキュメント

モデル生成詳細

このモデルは、llama.cpp のコミット 19e899c を使用して生成されました。

超低ビット量子化（IQ-DynamicGate、1 - 2ビット）

最新の量子化方法では、超低ビットモデル（1 - 2ビット）に対して 精度適応型量子化 を導入し、Llama-3-8B でのベンチマークで精度向上が実証されています。このアプローチは、レイヤーごとの戦略を用いて、極限のメモリ効率を維持しながら精度を保持します。

ベンチマークの背景

すべてのテストは、Llama-3-8B-Instruct を使用して行われました。

標準的なパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化で同じプロンプトセット

方法

動的精度割り当て：
- 最初/最後の25%のレイヤー → IQ4_XS（選択されたレイヤー）
- 中央の50% → IQ2_XXS/IQ3_S（効率を向上）
重要コンポーネント保護：
- 埋め込み/出力レイヤーはQ5_Kを使用
- 標準的な1 - 2ビット量子化と比較して、エラー伝播を38%削減

量子化性能比較（Llama-3-8B）

量子化	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

キーポイント:

PPL = パープレキシティ（低いほど良い）
Δ PPL = 標準からDynamicGateへのPPLの変化率
速度 = 推論時間（CPU avx2、2048トークンコンテキスト）
サイズの違いは、混合量子化のオーバーヘッドを反映

主な改善点:

🔥 IQ1_M は、パープレキシティを43.9%大幅に削減（27.46 → 15.41）
🚀 IQ2_S は、0.2GBの追加でパープレキシティを36.9%削減
⚡ IQ1_S は、1ビット量子化でありながら、39.7%の精度向上を維持

トレードオフ:

すべてのバリアントは、わずかなサイズの増加（0.1 - 0.3GB）があります。
推論速度は同等のままです（差は5%未満）。

これらのモデルを使用するタイミング

📌 モデルをGPU VRAMに収める場合 ✔ メモリ制約のあるデプロイメント ✔ CPUおよびエッジデバイスで、1 - 2ビットのエラーが許容される場合 ✔ 超低ビット量子化の研究

適切なモデル形式の選択

正しいモデル形式を選択するには、ハードウェア能力 と メモリ制約 を考慮する必要があります。

BF16（Brain Float 16） – BF16アクセラレーションが利用可能な場合に使用

高速な計算を目的とした16ビット浮動小数点数形式で、良好な精度を維持します。
FP32と同様のダイナミックレンジを提供しながら、低いメモリ使用量を実現します。
ハードウェアが BF16アクセラレーション をサポートしている場合に推奨（デバイスの仕様を確認）。
FP32と比較して、低いメモリ使用量で高性能な推論を実現します。

📌 BF16を使用する場合: ✔ ハードウェアがネイティブの BF16サポート を持っている場合（例：新しいGPU、TPU）。 ✔ メモリを節約しながら、より高い精度が必要な場合。 ✔ モデルを別の形式に再量子化する予定の場合。

📌 BF16を避ける場合: ❌ ハードウェアがBF16をサポートしていない場合（FP32にフォールバックし、低速になる可能性があります）。 ❌ BF16最適化がない古いデバイスとの互換性が必要な場合。

F16（Float 16） – BF16よりも広くサポートされている

16ビット浮動小数点数形式で、高い精度を持ちながら、BF16よりも狭い値の範囲を持ちます。
ほとんどのデバイスで FP16アクセラレーション をサポートしています（多くのGPUや一部のCPUを含む）。
BF16よりもわずかに低い数値精度ですが、一般的に推論には十分です。

📌 F16を使用する場合: ✔ ハードウェアが FP16 をサポートしているが、BF16 をサポートしていない場合。 ✔ 速度、メモリ使用量、精度のバランスが必要な場合。 ✔ GPU またはFP16計算に最適化された他のデバイスで実行する場合。

📌 F16を避ける場合: ❌ デバイスがネイティブの FP16サポート を持っていない場合（予想よりも低速になる可能性があります）。 ❌ メモリ制約がある場合。

量子化モデル（Q4_K、Q6_K、Q8など） – CPUおよび低VRAM推論用

量子化は、モデルサイズとメモリ使用量を削減しながら、可能な限り精度を維持します。

低ビットモデル（Q4_K） → 最小限のメモリ使用量に最適 ですが、精度が低くなる可能性があります。
高ビットモデル（Q6_K、Q8_0） → より高い精度 を提供しますが、より多くのメモリを必要とします。

📌 量子化モデルを使用する場合: ✔ CPU で推論を実行し、最適化されたモデルが必要な場合。 ✔ デバイスの VRAMが少なく、フル精度モデルをロードできない場合。 ✔ 適度な精度を維持しながら、メモリ使用量を削減 したい場合。

📌 量子化モデルを避ける場合: ❌ 最大限の精度 が必要な場合（フル精度モデルの方が適しています）。 ❌ ハードウェアに十分なVRAMがあり、より高精度の形式（BF16/F16）が使用できる場合。

超低ビット量子化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

これらのモデルは、極限のメモリ効率 を目的として最適化されており、低電力デバイス または 大規模デプロイメント でメモリが重要な制約となる場合に最適です。

IQ3_XS：超低ビット量子化（3ビット）で、極限のメモリ効率 を実現します。
- 使用例：Q4_Kでも大きすぎる 超低メモリデバイス に最適。
- トレードオフ：高位ビット量子化と比較して、精度が低くなります。
IQ3_S：小さなブロックサイズで、最大限のメモリ効率 を実現します。
- 使用例：IQ3_XS が過度に制限的な 低メモリデバイス に最適。
IQ3_M：中程度のブロックサイズで、IQ3_S よりも高い精度を提供します。
- 使用例：IQ3_S が制限的すぎる 低メモリデバイス に適しています。
Q4_K：4ビット量子化で、ブロック単位の最適化 を行い、精度を向上させます。
- 使用例：Q6_K では大きすぎる 低メモリデバイス に最適。
Q4_0：純粋な4ビット量子化で、ARMデバイス 用に最適化されています。
- 使用例：ARMベースのデバイス または 低メモリ環境 に最適。

モデル形式選択の概要表

モデル形式	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	最高	高	BF16対応のGPU/CPU	低メモリで高速な推論
F16	高	高	FP16対応のデバイス	BF16が利用できない場合のGPU推論
Q4_K	中程度以下	低	CPUまたは低VRAMデバイス	メモリ制約のある環境に最適
Q6_K	中程度	中程度	より多くのメモリを持つCPU	量子化されたままでも精度が良い
Q8_0	高	中程度	十分なVRAMを持つCPUまたはGPU	量子化モデルの中で最も精度が高い
IQ3_XS	非常に低い	非常に低い	超低メモリデバイス	極限のメモリ効率と低い精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppがARMデバイス用に最適化可能

含まれるファイルと詳細

`GLM-4-32B-0414-bf16.gguf`

モデルの重みが BF16 で保存されています。
モデルを別の形式に 再量子化 したい場合に使用します。
デバイスが BF16アクセラレーション をサポートしている場合に最適。

`GLM-4-32B-0414-f16.gguf`

モデルの重みが F16 で保存されています。
デバイスが FP16 をサポートしている場合、特にBF16が利用できない場合に使用します。

`GLM-4-32B-0414-bf16-q8_0.gguf`

出力と埋め込み は BF16 のままです。
他のすべてのレイヤーは Q8_0 に量子化されています。
デバイスが BF16 をサポートしており、量子化バージョンが必要な場合に使用します。

`GLM-4-32B-0414-f16-q8_0.gguf`

出力と埋め込み は F16 のままです。
他のすべてのレイヤーは Q8_0 に量子化されています。

`GLM-4-32B-0414-q4_k.gguf`

出力と埋め込み は Q8_0 に量子化されています。
他のすべてのレイヤーは Q4_K に量子化されています。
メモリが制限された CPU推論 に適しています。

`GLM-4-32B-0414-q4_k_s.gguf`

最小の Q4_K バリアントで、精度を犠牲にしてメモリ使用量を削減します。
非常に低メモリのセットアップ に最適。

`GLM-4-32B-0414-q6_k.gguf`

出力と埋め込み は Q8_0 に量子化されています。
他のすべてのレイヤーは Q6_K に量子化されています。

`GLM-4-32B-0414-q8_0.gguf`

完全に Q8 量子化されたモデルで、より高い精度を提供します。
より多くの メモリが必要 ですが、高精度を実現します。

`GLM-4-32B-0414-iq3_xs.gguf`

IQ3_XS 量子化で、極限のメモリ効率 を実現します。
超低メモリデバイス に最適。

`GLM-4-32B-0414-iq3_m.gguf`

IQ3_M 量子化で、中程度のブロックサイズで 高い精度 を提供します。
低メモリデバイス に適しています。

`GLM-4-32B-0414-q4_0.gguf`

純粋な Q4_0 量子化で、ARMデバイス 用に最適化されています。
低メモリ環境 に最適。
より高い精度が必要な場合は、IQ4_NLを選択してください。

モデルのテスト

もしこれらのモデルが役に立った場合は、ぜひ「いいね」をクリックしてください！また、量子対応のセキュリティチェック を備えた AIパワードのネットワークモニターアシスタント のテストにご協力いただけると幸いです。 👉 無料ネットワークモニター

テスト方法

AIアシスタントのタイプ を選択します。

TurboLLM (GPT-4o-mini)
HugLLM (Hugginfaceオープンソース)
TestLLM (実験的なCPU専用)

テスト内容

AIネットワークモニタリング用の小型オープンソースモデル の限界を追求しています。具体的には、

実際のネットワークサービスに対する 関数呼び出し
モデルが以下のタスクを処理しながら、どれだけ小さくできるか
- 自動化された Nmapスキャン
- 量子対応チェック
- ネットワークモニタリングタスク

TestLLM – 現在の実験的モデル（llama.cpp、2 CPUスレッド）

✅ ゼロコンフィギュレーションセットアップ
⏳ 30秒のロード時間（推論は遅いが、APIコストがかからない）
🔧 協力者募集中！ エッジデバイスAIに興味がある方は、一緒に協力しましょう！

他のアシスタント

🟢 TurboLLM – gpt-4o-mini を使用して、

無料ネットワークモニターエージェントで.netコードを実行するカスタムコマンドプロセッサを作成
リアルタイムのネットワーク診断とモニタリング
セキュリティ監査
ペネトレーションテスト (Nmap/Metasploit)
🔑 ログインするか、AIアシスタントを統合した無料ネットワークモニターエージェントをダウンロードすることで、より多くのトークンを取得できます。

🔵 HugLLM – 最新のオープンソースモデル

🌐 Hugging Face推論APIで実行されます。

テストできるコマンドの例

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
'"Create a cmd processor to .. (what ever you want)" ただし、.netコードを実行するには、無料ネットワークモニターエージェントをインストールする必要があります。これは非常に柔軟で強力な機能です。注意して使用してください！

🔧 技術詳細

GLM-4-32B-0414シリーズモデルの概要

GLMファミリーに新しいメンバー、GLM-4-32B-0414 シリーズモデルが加わりました。これらのモデルは320億のパラメータを持ち、OpenAIのGPTシリーズやDeepSeekのV3/R1シリーズと匹敵する性能を発揮します。また、非常に使いやすいローカルデプロイ機能もサポートしています。

GLM-4-32B-Base-0414

このモデルは、15Tの高品質データで事前学習されており、大量の推論型合成データが含まれています。これが、その後の強化学習拡張の基礎となります。事後学習段階では、対話シナリオに対する人間の嗜好アライメントを行いました。また、棄却サンプリングや強化学習などの技術を用いて、モデルの命令追従、エンジニアリングコード、関数呼び出しの性能を向上させ、エージェントタスクに必要な原子的な能力を強化しました。GLM-4-32B-0414は、エンジニアリングコード、アーティファクト生成、関数呼び出し、検索ベースの質問応答、レポート生成などで良好な結果を達成しています。特に、コード生成や特定の質問応答タスクなどのいくつかのベンチマークでは、GPT-4oやDeepSeek-V3-0324 (671B) などの大規模モデルと同等の性能を発揮します。

GLM-Z1-32B-0414

これは、深い思考能力を持つ推論モデルです。GLM-4-32B-0414をベースに、コールドスタート、拡張強化学習、数学、コード、論理などのタスクでの追加学習を行って開発されました。ベースモデルと比較して、数学的能力と複雑なタスクを解決する能力が大幅に向上しています。学習中には、ペアワイズランキングフィードバックに基づく一般的な強化学習も導入され、モデルの一般的な能力が強化されています。

GLM-Z1-Rumination-32B-0414

これは、反芻能力を持つ深い推論モデルです（OpenAIのDeep Researchに対抗）。通常の深い思考モデルとは異なり、この反芻モデルは、より深く長い思考を行って、よりオープンエンドで複雑な問題を解決することができます（例：2つの都市のAI開発の比較分析とその将来の開発計画の作成）。Z1-Ruminationは、エンドツーエンドの強化学習を拡大し、応答を正解または採点基準で評価することで学習され、深い思考過程で検索ツールを利用して複雑なタスクを処理することができます。このモデルは、研究スタイルの執筆や複雑なタスクで大幅な改善を示しています。

GLM-Z1-9B-0414

これは、上記のすべての技術を用いて学習された小型モデル（9B）です。GLM-Z1-9B-0414は、数学的推論と一般的なタスクで優れた能力を示しています。同サイズのすべてのオープンソースモデルの中で、全体的な性能が上位にランクされています。特に、リソース制約のあるシナリオでは、このモデルは効率と効果の間で優れたバランスを達成し、軽量デプロイを求めるユーザーに強力なオプションを提供します。

デモンストレーション

アニメーション生成

モデル	説明
GLM-Z1-32B-0414	回転する六角形の中でボールが弾むPythonプログラムを生成。ボールは重力と摩擦の影響を受け、回転する壁に現実的に弾かれます。
GLM-4-32B-0414	HTMLを使用して、回転する六角形の中心から放出される小球のシナリオをシミュレート。ボールと六角形の辺の衝突、ボールに作用する重力を考慮し、すべての衝突は完全弾性と仮定します。

ウェブデザイン

モデル	説明
GLM-4-32B-0414	カスタム関数のプロットをサポートする描画ボードを設計。カスタム関数の追加と削除、関数に色を割り当てることができます。
GLM-4-32B-0414	モバイル機械学習プラットフォームのUIを設計。トレーニングタスク、ストレージ管理、個人統計のインターフェースを含みます。個人統計インターフェースは、ユーザーの一定期間のリソース使用量をグラフで表示します。Tailwind CSSを使用してページをスタイル設定し、これらの3つのモバイルインターフェースを単一のHTMLページにタイル表示します。

モデル

説明

GLM-4-32B-0414

カスタム関数のプロットをサポートする描画ボードを設計。カスタム関数の追加と削除、関数に色を割り当てることができます。

GLM-4-32B-0414

モバイル機械学習プラットフォームのUIを設計。トレーニングタスク、ストレージ管理、個人統計のインターフェースを含みます。個人統計インターフェースは、ユーザーの一定期間のリソース使用量をグラフで表示します。Tailwind CSSを使用してページをスタイル設定し、これらの3つのモバイルインターフェースを単一のHTMLページにタイル表示します。

SVG生成

モデル	説明
GLM-4-32B-0414	SVGを使用して、霧のかかった江南のシーンを作成。
GLM-4-32B-0414	SVGを使用して、LLMのトレーニングプロセスを説明。

検索ベースの執筆

検索ベースの執筆タスクでは、以下のシステムプロンプトを使用して、モデルに検索結果に基づいて応答させます。

请根据所给搜索返回结果对用户问题进行作答。

## 注意
1. 充分利用和整理收集到的信息，而不是简单的复制粘贴，生成符合用户要求且有深度的专业答案。
2. 所提供信息充分的情况下，你的回答需尽可能延长，从用户意图角度出发，提供具有足够信息量和多角度的回复。
3. 另外，并非所有的搜索结果都与用户问题密切相关，请仔细的甄别、筛选和利用。
4. 客观类问答的答案通常非常简短，你可以适当补充一到两句相关信息，以丰富内容。
5. 请确保你的回复格式美观、可读性强。对于多实体对比或列举，善用列表格式来帮助用户更好的理解信息。
6. 除非用户要求，否则你回答的语言请于用户提问语言保持一致。
7. 在适当情况下在句子末尾使用例如:【0†source】的格式引用搜索结果。

使用する際には、RAG や WebSearch などの方法で検索結果を取得し、observation でラップすることができます。例えば：

[
    {
        "role": "user",
        "content": "Explore the common characteristics of children's literature, with a focus on its narrative techniques and thematic tendencies. This includes narrative techniques: common approaches in children's literature such as first-person, third-person, omniscient narrator, and interactive narration, and their influence on young readers. It also includes thematic tendencies: recurring themes in children's literature such as growth, adventure, friendship, and family, with an analysis of how these themes impact children's cognitive and emotional development. Additionally, other universal features such as the use of personification, repetitive language, symbolism and metaphor, and educational value should be considered. Please provide a detailed analytical report based on academic research, classic examples of children's literature, and expert o"
    }
]