Google Medgemma - 4b - ITオープンソースモデル - 多様な量子化オプションでさまざまなユーザーのニーズを満たす

Home

Google Medgemma 4b It GGUF

Developed by bartowski

これはGoogleのmedgemma-4b-itモデルのLlamacpp imatrix量化バージョンで、さまざまな量化オプションを提供し、さまざまなニーズのユーザーに適しています。

大規模言語モデル Open Source License:Other #医療対話モデル #多量化バージョン #低メモリ最適化

Downloads 348

Release Time : 7/12/2025

Model Overview

このプロジェクトは、Googleのmedgemma-4b-itモデルに対するLlamacpp imatrix量化処理で、さまざまな量化バージョンを提供し、LM Studioまたはllama.cppベースのプロジェクトで実行できます。

Model Features

多量化タイプ

bf16、Q8_0、Q6_K_Lなど、さまざまな量化タイプのファイルを提供し、ユーザーのモデル品質とファイルサイズに対するさまざまなニーズを満たします。

オンライン再パッケージ化

一部の量化バージョンはオンライン再パッケージ化をサポートし、ハードウェア性能を自動的に最適化できます。

特定の重み処理

一部の量化バージョンでは、埋め込みと出力の重みをQ8_0に量化し、モデル品質を向上させます。

Model Capabilities

テキスト生成

医療テキスト処理

多輪対話

Use Cases

医療健康

医療質問応答

医療関連の質問に答え、専門的な医療アドバイスを提供するために使用します。

病歴生成

患者の症状に基づいて初期の病歴記録を生成します。

教育

医学教育

医学教育における知識の質問応答と説明に使用します。

🚀 Googleのmedgemma - 4b - itのLlamacpp imatrix量子化

このプロジェクトは、Googleのmedgemma - 4b - itモデルをLlamacppを用いて量子化したものです。画像とテキストを入力としてテキストを出力する機能を持ち、医療分野での応用が期待されます。

🚀 クイックスタート

量子化について

llama.cppのリリース版 b5868 を使用して量子化を行っています。元のモデルはこちらです。

実行方法

LM Studio で実行することができます。
llama.cpp や他のllama.cppベースのプロジェクトで直接実行することも可能です。

✨ 主な機能

画像テキスト変換：画像とテキストを入力としてテキストを出力することができます。
複数の量子化形式：様々な量子化形式（Q2_K、Q3_K、Q4_K、Q5_K、Q8_0など）が用意されており、メモリや性能に合わせて選択できます。

📦 インストール

huggingface-cliを使ったダウンロード

まず、huggingface-cliをインストールします。

pip install -U "huggingface_hub[cli]"

特定のファイルをダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/google_medgemma-4b-it-GGUF --include "google_medgemma-4b-it-Q4_K_M.gguf" --local-dir ./

モデルが50GB以上の場合は、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/google_medgemma-4b-it-GGUF --include "google_medgemma-4b-it-Q8_0/*" --local-dir ./

💻 使用例

基本的な使用法

<bos><start_of_turn>user
{system_prompt}

{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model

📚 ドキュメント

ファイルのダウンロード

以下の表からダウンロードするファイルを選択できます。

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
medgemma-4b-it-bf16.gguf	bf16	7.77GB	false	完全なBF16ウェイト。
medgemma-4b-it-Q8_0.gguf	Q8_0	4.13GB	false	非常に高品質で、一般的には必要ないが最大限の量子化。
medgemma-4b-it-Q6_K_L.gguf	Q6_K_L	3.35GB	false	埋め込みと出力ウェイトにQ8_0を使用。非常に高品質で、ほぼ完璧、推奨。
medgemma-4b-it-Q6_K.gguf	Q6_K	3.19GB	false	非常に高品質で、ほぼ完璧、推奨。
medgemma-4b-it-Q5_K_L.gguf	Q5_K_L	2.99GB	false	埋め込みと出力ウェイトにQ8_0を使用。高品質、推奨。
medgemma-4b-it-Q5_K_M.gguf	Q5_K_M	2.83GB	false	高品質、推奨。
medgemma-4b-it-Q5_K_S.gguf	Q5_K_S	2.76GB	false	高品質、推奨。
medgemma-4b-it-Q4_K_L.gguf	Q4_K_L	2.65GB	false	埋め込みと出力ウェイトにQ8_0を使用。良好な品質、推奨。
medgemma-4b-it-Q4_1.gguf	Q4_1	2.56GB	false	レガシー形式、Q4_K_Sと同様のパフォーマンスが得られますが、Apple Siliconでのトークン/ワットが改善されています。
medgemma-4b-it-Q4_K_M.gguf	Q4_K_M	2.49GB	false	良好な品質、ほとんどのユースケースでのデフォルトサイズ、推奨。
medgemma-4b-it-Q3_K_XL.gguf	Q3_K_XL	2.40GB	false	埋め込みと出力ウェイトにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。
medgemma-4b-it-Q4_K_S.gguf	Q4_K_S	2.38GB	false	品質がやや低いですが、より多くのスペースを節約できます、推奨。
medgemma-4b-it-Q4_0.gguf	Q4_0	2.37GB	false	レガシー形式で、ARMおよびAVX CPU推論のためのオンライン再パッキングを提供します。
medgemma-4b-it-IQ4_NL.gguf	IQ4_NL	2.36GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論のためのオンライン再パッキングを提供します。
medgemma-4b-it-IQ4_XS.gguf	IQ4_XS	2.26GB	false	適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスが得られます、推奨。
medgemma-4b-it-Q3_K_L.gguf	Q3_K_L	2.24GB	false	品質は低いが使用可能で、低RAM環境に適しています。
medgemma-4b-it-Q3_K_M.gguf	Q3_K_M	2.10GB	false	低品質。
medgemma-4b-it-IQ3_M.gguf	IQ3_M	1.99GB	false	中程度の低品質で、Q3_K_Mに匹敵する適度なパフォーマンスを持つ新しい方法です。
medgemma-4b-it-Q3_K_S.gguf	Q3_K_S	1.94GB	false	低品質、推奨しません。
medgemma-4b-it-Q2_K_L.gguf	Q2_K_L	1.89GB	false	埋め込みと出力ウェイトにQ8_0を使用。非常に低品質ですが、意外と使用可能です。
medgemma-4b-it-IQ3_XS.gguf	IQ3_XS	1.86GB	false	品質が低いですが、適度なパフォーマンスを持つ新しい方法で、Q3_K_Sよりも少し良いです。
medgemma-4b-it-Q2_K.gguf	Q2_K	1.73GB	false	非常に低品質ですが、意外と使用可能です。
medgemma-4b-it-IQ3_XXS.gguf	IQ3_XXS	1.69GB	false	品質が低いですが、適度なパフォーマンスを持つ新しい方法で、Q3量子化と匹敵します。

埋め込み/出力ウェイト

一部の量子化（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、埋め込みと出力ウェイトが通常のデフォルト値ではなくQ8_0に量子化されています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、ARMおよびAVXマシンでのパフォーマンスを向上させるために、ウェイトをメモリ内でインターリーブしていました。

現在では、ウェイトの「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアがウェイトの再パッキングによって恩恵を受ける場合、自動的に実行されます。

llama.cppビルド b4282 以降では、Q4_0_X_Xファイルを実行することはできず、代わりにQ4_0を使用する必要があります。

また、このPR により、ARM用にウェイトを再パッキングするIQ4_NLを使用すると、少し良い品質が得られます（現時点では4_4のみ）。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。

どのファイルを選べばいいですか？

まず、実行できるモデルのサイズを決定するために、持っているRAMおよび/またはVRAMの量を確認する必要があります。

できるだけ高速にモデルを実行したい場合は、全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化を選択してください。

絶対的な最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化を選択してください。

次に、「I - 量子化」または「K - 量子化」を使用するかを決定する必要があります。

あまり考えたくない場合は、K - 量子化のいずれかを選択してください。これらは 'QX_K_X' 形式（Q5_K_Mなど）です。

もっと詳細に調べたい場合は、この非常に便利な機能チャートを確認できます。

llama.cpp機能マトリックス

基本的に、Q4以下を目指し、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I - 量子化を検討する必要があります。これらはIQX_X形式（IQ3_Mなど）で、新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI - 量子化はCPUでも使用できますが、同等のK - 量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。

🔧 技術詳細

量子化方法

llama.cpp の b5868 リリースを使用して量子化を行っています。すべての量子化は、ここのデータセットを使用してimatrixオプションで作成されています。

オンライン再パッキング

ARMおよびAVXマシンでのパフォーマンスを向上させるために、ウェイトの「オンライン再パッキング」機能が導入されています。詳細はこのPR を参照してください。

📄 ライセンス

このモデルは Health AI Developer Foundation's terms of use に基づいて提供されています。Hugging FaceでMedGemmaにアクセスするには、この利用規約を確認し、同意する必要があります。

クレジット

kalomazeとDampfには、imatrixキャリブレーションデータセットの作成に協力してくれたことに感謝します。
ZeroWwには、埋め込み/出力の実験のインスピレーションを提供してくれたことに感謝します。
LM Studioには、私の仕事を支援してくれたことに感謝します。

私の仕事をサポートしたい場合は、こちらのko - fiページをご覧ください。

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご