cognitivecomputations_Qwen3-72B-Embiggened-GGUFオープンソースモデル - 多環境での高効率運用に最適な実用的な選択肢

Home

Cognitivecomputations Qwen3 72B Embiggened GGUF

Developed by bartowski

cognitivecomputations/Qwen3-72B-Embiggenedモデルに基づく量子化バージョンで、llama.cppを使用して量子化処理を行い、様々な環境で効率的に動作します。

大規模言語モデル Open Source License:Apache-2.0 #72B大モデル #高精度量子化 #多シナリオテキスト生成

Downloads 826

Release Time : 6/12/2025

Model Overview

これは72Bパラメータ規模の大規模言語モデルの量子化バージョンで、テキスト生成タスクをサポートし、Apache 2.0ライセンスを採用しています。

Model Features

複数の量子化オプション

Q8_0からIQ1_Mまで合計23種類の量子化バージョンを提供し、さまざまなハードウェア要件を満たします。

効率的な動作

llama.cppを使用して量子化処理を行うため、様々な環境で効率的に動作します。

imatrix量子化

すべての量子化バージョンはimatrixオプションを使用して生成され、量子化品質を向上させます。

ハードウェア互換性

ARMおよびAVX CPU推論のオンライン再パッケージ機能をサポートします。

Model Capabilities

テキスト生成

対話システム

長文脈処理のサポート

Use Cases

対話システム

スマートアシスタント

スマート対話アシスタントの構築に使用できます。

コンテンツ生成

テキスト創作

記事、物語などのテキストコンテンツの生成に使用できます。

🚀 cognitivecomputationsによるQwen3-72B-EmbiggenedのLlamacpp imatrix量子化

このプロジェクトは、llama.cpp のリリース b5627 を使用して、cognitivecomputationsによるQwen3-72B-Embiggenedモデルの量子化を行っています。量子化には、こちらのデータセットを用いて、imatrixオプションを使用しています。

基本情報

属性	详情
量子化担当者	bartowski
パイプラインタグ	テキスト生成
ベースモデル	cognitivecomputations/Qwen3-72B-Embiggened
ベースモデル関係	量子化
ライセンス	apache-2.0

🚀 クイックスタート

元のモデルはこちらです。量子化されたモデルは、LM Studio で実行することができます。また、llama.cpp や他のllama.cppベースのプロジェクトで直接実行することも可能です。

プロンプトフォーマット

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📦 インストール

huggingface-cliを使用したダウンロード

まず、hugginface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定することができます。

huggingface-cli download bartowski/cognitivecomputations_Qwen3-72B-Embiggened-GGUF --include "cognitivecomputations_Qwen3-72B-Embiggened-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/cognitivecomputations_Qwen3-72B-Embiggened-GGUF --include "cognitivecomputations_Qwen3-72B-Embiggened-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（cognitivecomputations_Qwen3-72B-Embiggened-Q8_0）を指定するか、すべてをそのままダウンロードすることができます（./）。

💻 使用例

モデルの選択

どのファイルを選ぶべきかについては、まず実行できるモデルのサイズを判断する必要があります。これには、持っているRAMやVRAMの容量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収めることが望ましいです。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化モデルを選びましょう。

最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化モデルを選びます。

次に、'I-quant' または 'K-quant' を使用するかを決定する必要があります。あまり考えたくない場合は、K-quantを選ぶと良いでしょう。これらは 'QX_K_X' の形式で、例えばQ5_K_Mです。

もっと詳細に調べたい場合は、llama.cpp feature matrix を参照することができます。基本的に、Q4以下を目指し、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-quantを検討すると良いです。これらはIQX_Xの形式で、例えばIQ3_Mです。これらは新しい形式で、サイズに対してより良いパフォーマンスを提供します。

ダウンロード可能なファイル一覧

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
Qwen3-72B-Embiggened-Q8_0.gguf	Q8_0	77.26GB	true	非常に高品質で、一般的には必要ないが、利用可能な最大の量子化。
Qwen3-72B-Embiggened-Q6_K.gguf	Q6_K	64.34GB	true	非常に高品質で、ほぼ完璧で、推奨。
Qwen3-72B-Embiggened-Q5_K_M.gguf	Q5_K_M	54.44GB	true	高品質で、推奨。
Qwen3-72B-Embiggened-Q5_K_S.gguf	Q5_K_S	51.37GB	true	高品質で、推奨。
Qwen3-72B-Embiggened-Q4_K_L.gguf	Q4_K_L	48.29GB	false	埋め込みと出力の重みにQ8_0を使用。良い品質で、推奨。
Qwen3-72B-Embiggened-Q4_K_M.gguf	Q4_K_M	47.37GB	false	良い品質で、ほとんどのユースケースでのデフォルトサイズ、推奨。
Qwen3-72B-Embiggened-Q4_1.gguf	Q4_1	45.69GB	false	レガシー形式で、Q4_K_Sと同様のパフォーマンスが得られますが、Appleシリコンでのtokens/wattが向上します。
Qwen3-72B-Embiggened-Q4_K_S.gguf	Q4_K_S	43.80GB	false	品質がやや低いが、より多くのスペースを節約できる、推奨。
Qwen3-72B-Embiggened-Q4_0.gguf	Q4_0	41.38GB	false	レガシー形式で、ARMおよびAVX CPU推論用のオンライン再パッキングを提供します。
Qwen3-72B-Embiggened-IQ4_NL.gguf	IQ4_NL	41.31GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンライン再パッキングを提供します。
Qwen3-72B-Embiggened-Q3_K_XL.gguf	Q3_K_XL	40.59GB	false	埋め込みと出力の重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。
Qwen3-72B-Embiggened-IQ4_XS.gguf	IQ4_XS	39.70GB	false	適度な品質で、Q4_K_Sより小さく、同様のパフォーマンスが得られる、推奨。
Qwen3-72B-Embiggened-Q3_K_L.gguf	Q3_K_L	39.50GB	false	品質は低いが使用可能で、低RAM環境に適しています。
Qwen3-72B-Embiggened-Q3_K_M.gguf	Q3_K_M	37.61GB	false	低品質。
Qwen3-72B-Embiggened-IQ3_M.gguf	IQ3_M	35.42GB	false	中程度の低品質で、Q3_K_Mに匹敵する適度なパフォーマンスを持つ新しい方法。
Qwen3-72B-Embiggened-Q3_K_S.gguf	Q3_K_S	34.31GB	false	低品質で、推奨されません。
Qwen3-72B-Embiggened-IQ3_XS.gguf	IQ3_XS	32.75GB	false	低品質で、適度なパフォーマンスを持つ新しい方法で、Q3_K_Sより少し良い。
Qwen3-72B-Embiggened-IQ3_XXS.gguf	IQ3_XXS	31.76GB	false	低品質で、適度なパフォーマンスを持つ新しい方法で、Q3量子化に匹敵する。
Qwen3-72B-Embiggened-Q2_K_L.gguf	Q2_K_L	30.94GB	false	埋め込みと出力の重みにQ8_0を使用。非常に低い品質ですが、意外と使用可能です。
Qwen3-72B-Embiggened-Q2_K.gguf	Q2_K	29.72GB	false	非常に低い品質ですが、意外と使用可能です。
Qwen3-72B-Embiggened-IQ2_M.gguf	IQ2_M	29.33GB	false	比較的低い品質ですが、SOTA技術を使用して意外と使用可能です。
Qwen3-72B-Embiggened-IQ2_S.gguf	IQ2_S	27.93GB	false	低品質ですが、SOTA技術を使用して使用可能です。
Qwen3-72B-Embiggened-IQ2_XS.gguf	IQ2_XS	27.05GB	false	低品質ですが、SOTA技術を使用して使用可能です。
Qwen3-72B-Embiggened-IQ2_XXS.gguf	IQ2_XXS	25.49GB	false	非常に低い品質ですが、SOTA技術を使用して使用可能です。
Qwen3-72B-Embiggened-IQ1_M.gguf	IQ1_M	23.74GB	false	非常に低い品質で、推奨されません。