glm-4-9b-chat-abliterated-GGUFオープンソースチャットモデル - 中国語と英語の会話をサポート、多様なハードウェアに対応

ホーム

Glm 4 9b Chat Abliterated GGUF

bartowskiによって開発

GLM-4アーキテクチャに基づく9Bパラメータのチャットモデルで、中国語と英語の対話をサポートし、量子化処理によりさまざまなハードウェア環境に対応

大規模言語モデル複数言語対応オープンソースライセンス:その他 #中日バイリンガル対話 #高精度量子化 #低メモリ使用量

ダウンロード数 2,676

リリース時間 : 4/25/2025

モデル概要

これはGLM-4アーキテクチャに基づく9Bパラメータのチャットモデルで、中国語と英語の対話をサポートします。モデルはさまざまな量子化処理が施されており、異なるハードウェア環境に適しており、特にリソースが限られたデバイスでの実行に最適です。

モデル特徴

多重量化バージョン

F16からIQ2_Mまでのさまざまな量子化バージョンを提供し、異なるハードウェア要件に対応

中日バイリンガルサポート

中国語と英語の対話交流を特に最適化してサポート

効率的な推論

リソースが限られたデバイス上で効率的に動作するよう最適化

imatrix量子化

llama.cppのimatrixオプションを使用して量子化を行い、量子化品質を向上

モデル能力

テキスト生成

対話システム

中日バイリンガル処理

チャットアプリケーション

使用事例

インテリジェントアシスタント

日常的な質問応答

ユーザーのさまざまな日常的な質問に回答

正確で流暢な回答を提供

言語学習

中日バイリンガル学習を支援

自然な言語交流体験を提供

組み込みアプリケーション

ローカルチャットアプリケーション

リソースが限られたデバイスにチャット機能を展開

限られたリソース下で流暢な対話を実現

base_model: byroneverson/glm-4-9b-chat-abliterated language:

zh
en library_name: transformers license: other license_name: glm-4 license_link: https://huggingface.co/THUDM/glm-4-9b-chat/blob/main/LICENSE pipeline_tag: text-generation tags:
glm
chatglm
thudm
chat
abliterated quantized_by: bartowski

glm-4-9b-chat-abliteratedのLlamacpp imatrix量子化

llama.cppのリリースb3634を使用して量子化を行いました。

オリジナルモデル: https://huggingface.co/byroneverson/glm-4-9b-chat-abliterated

すべての量子化は、こちらのデータセットを使用してimatrixオプションで作成されました。

LM Studioで実行してください。

プロンプト形式

[gMASK] <sop> <|system|> 
{system_prompt} <|user|> 
{prompt} <|assistant|>

以下のファイルをダウンロードしてください（ブランチ全体ではありません）:

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
glm-4-9b-chat-abliterated-f16.gguf	f16	18.81GB	false	完全なF16ウェイト。
glm-4-9b-chat-abliterated-Q8_0.gguf	Q8_0	9.99GB	false	非常に高品質、一般的には不要ですが利用可能な最大の量子化。
glm-4-9b-chat-abliterated-Q6_K_L.gguf	Q6_K_L	8.56GB	false	埋め込みと出力ウェイトにQ8_0を使用。非常に高品質、ほぼ完璧、推奨。
glm-4-9b-chat-abliterated-Q6_K.gguf	Q6_K	8.26GB	false	非常に高品質、ほぼ完璧、推奨。
glm-4-9b-chat-abliterated-Q5_K_L.gguf	Q5_K_L	7.53GB	false	埋め込みと出力ウェイトにQ8_0を使用。高品質、推奨。
glm-4-9b-chat-abliterated-Q5_K_M.gguf	Q5_K_M	7.14GB	false	高品質、推奨。
glm-4-9b-chat-abliterated-Q4_K_L.gguf	Q4_K_L	6.71GB	false	埋め込みと出力ウェイトにQ8_0を使用。良好な品質、推奨。
glm-4-9b-chat-abliterated-Q5_K_S.gguf	Q5_K_S	6.69GB	false	高品質、推奨。
glm-4-9b-chat-abliterated-Q4_K_M.gguf	Q4_K_M	6.25GB	false	良好な品質、ほとんどの使用ケースに適したデフォルトサイズ、推奨。
glm-4-9b-chat-abliterated-Q3_K_XL.gguf	Q3_K_XL	5.82GB	false	埋め込みと出力ウェイトにQ8_0を使用。品質は低いが使用可能、RAMが少ない場合に適しています。
glm-4-9b-chat-abliterated-Q4_K_S.gguf	Q4_K_S	5.75GB	false	品質はやや低いがスペースを節約、推奨。
glm-4-9b-chat-abliterated-Q4_0.gguf	Q4_0	5.47GB	false	レガシーフォーマット、同サイズのフォーマットと比べて使用価値は低い
glm-4-9b-chat-abliterated-Q4_0_8_8.gguf	Q4_0_8_8	5.46GB	false	ARMおよびCPU推論に最適化、Q4_0よりも高速で品質は同等。
glm-4-9b-chat-abliterated-Q4_0_4_8.gguf	Q4_0_4_8	5.46GB	false	ARMおよびCPU推論に最適化、Q4_0よりも高速で品質は同等。
glm-4-9b-chat-abliterated-Q4_0_4_4.gguf	Q4_0_4_4	5.46GB	false	ARMおよびCPU推論に最適化、Q4_0よりも高速で品質は同等。
glm-4-9b-chat-abliterated-Q3_K_L.gguf	Q3_K_L	5.28GB	false	品質は低いが使用可能、RAMが少ない場合に適しています。
glm-4-9b-chat-abliterated-IQ4_XS.gguf	IQ4_XS	5.25GB	false	良好な品質、Q4_K_Sよりも小さく性能は同等、推奨。
glm-4-9b-chat-abliterated-Q3_K_M.gguf	Q3_K_M	5.06GB	false	低品質。
glm-4-9b-chat-abliterated-IQ3_M.gguf	IQ3_M	4.81GB	false	中低品質、新しい手法でQ3_K_Mに匹敵する性能。
glm-4-9b-chat-abliterated-Q2_K_L.gguf	Q2_K_L	4.60GB	false	埋め込みと出力ウェイトにQ8_0を使用。非常に低品質だが驚くほど使用可能。
glm-4-9b-chat-abliterated-Q3_K_S.gguf	Q3_K_S	4.59GB	false	低品質、非推奨。
glm-4-9b-chat-abliterated-IQ3_XS.gguf	IQ3_XS	4.43GB	false	低品質、新しい手法でQ3_K_Sよりもやや優れた性能。
glm-4-9b-chat-abliterated-Q2_K.gguf	Q2_K	3.99GB	false	非常に低品質だが驚くほど使用可能。
glm-4-9b-chat-abliterated-IQ2_M.gguf	IQ2_M	3.93GB	false	比較的低品質だが、SOTA技術を使用して驚くほど使用可能。

埋め込み/出力ウェイト

これらの量子化の一部（Q3_K_XL、Q4_K_Lなど）は、埋め込みと出力ウェイトを通常のデフォルトではなくQ8_0で量子化した標準的な量子化方法です。

これにより品質が向上すると言う人もいれば、違いに気づかない人もいます。これらのモデルを使用する場合は、ぜひコメントを残してください。これらの量子化が実際に使用され有用であるかどうか、フィードバックが欲しいです。

ありがとうございます！

クレジット

imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。

埋め込み/出力の実験にインスピレーションを与えてくれたZeroWwに感謝します。

huggingface-cliを使用したダウンロード

まず、huggingface-cliがインストールされていることを確認してください:

pip install -U "huggingface_hub[cli]"

その後、特定のファイルを指定してダウンロードできます:

huggingface-cli download bartowski/glm-4-9b-chat-abliterated-GGUF --include "glm-4-9b-chat-abliterated-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されています。すべてをローカルフォルダにダウンロードするには、次のコマンドを実行します:

huggingface-cli download bartowski/glm-4-9b-chat-abliterated-GGUF --include "glm-4-9b-chat-abliterated-Q8_0/*" --local-dir ./

新しいlocal-dir（glm-4-9b-chat-abliterated-Q8_0）を指定するか、すべてをその場（./）にダウンロードできます。

どのファイルを選ぶべきか？

Artefact2によるさまざまな性能を示すチャート付きの優れた説明がこちらにあります。

まず、実行可能なモデルのサイズを把握する必要があります。そのためには、RAMやVRAMの量を確認する必要があります。

モデルを可能な限り高速に実行したい場合は、モデル全体をGPUのVRAMに収める必要があります。GPUの総VRAMよりも1-2GB小さい量子化を選んでください。

最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様に合計よりも1-2GB小さい量子化を選んでください。

次に、「I-quant」または「K-quant」を使用するかどうかを決める必要があります。

あまり考えたくない場合は、K-quantのいずれかを選んでください。これらは「QX_K_X」形式（例：Q5_K_M）です。

さらに詳しく知りたい場合は、この非常に便利な機能チャートを確認してください:

llama.cpp feature matrix

基本的に、Q4以下を目指していて、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-quantを検討してください。これらは「IQX_X」形式（例：IQ3_M）で、新しいものでサイズに対してより優れた性能を提供します。

これらのI-quantはCPUやApple Metalでも使用できますが、K-quantの同等品よりも遅くなるため、速度と性能のトレードオフを考慮する必要があります。

I-quantはVulcan（AMD）とは互換性がありません。AMDカードを使用している場合は、rocBLASビルドかVulcanビルドかを確認してください。この記事の執筆時点では、LM StudioにはROCmサポートのプレビューがあり、他の推論エンジンにはROCm用の特定のビルドがあります。

私の仕事を支援したいですか？私のko-fiページを訪れてください: https://ko-fi.com/bartowski

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご