モデル概要
モデル特徴
モデル能力
使用事例
🚀 CausalLM 7B - GGUF
このモデルは、自然言語処理におけるテキスト生成タスクに特化したモデルです。多様なデータセットで学習され、英語と中国語に対応しています。
🚀 クイックスタート
このセクションでは、CausalLM 7B - GGUF モデルの基本的な使い方を説明します。
モデル情報
属性 | 詳情 |
---|---|
モデルタイプ | llama |
訓練データ | JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca、stingning/ultrachat、meta-math/MetaMathQA、liuhaotian/LLaVA-Instruct-150K、jondurbin/airoboros-3.1、WizardLM/WizardLM_evol_instruct_V2_196k、RyokoAI/ShareGPT52K、RyokoAI/Fandom23K、milashkaarshif/MoeGirlPedia_wikitext_raw_archive、wikipedia、wiki_lingua、fnlp/moss-003-sft-data、garage-bAInd/Open-Platypus、LDJnr/Puffin、openbmb/llava_zh、BAAI/COIG、TigerResearch/tigerbot-zhihu-zh-10k、liwu/MNBVC、teknium/openhermes |
モデルのダウンロード
ダウンロード方法の詳細を表示
手動ダウンロードの注意点: 通常、リポジトリ全体をクローンする必要はありません。複数の量子化形式が提供されており、ほとんどのユーザーは1つのファイルを選択してダウンロードするだけです。
以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。
- LM Studio
- LoLLMS Web UI
- Faraday.dev
text-generation-webui
でのダウンロード
「Download Model」の下で、モデルリポジトリ TheBloke/CausalLM-7B-GGUF
を入力し、その下にダウンロードする特定のファイル名(例: causallm_7b.Q4_K_M.gguf
)を入力します。そして「Download」をクリックします。
コマンドラインでのダウンロード
huggingface-hub
Python ライブラリを使用することをおすすめします。
pip3 install huggingface-hub
次に、以下のようなコマンドで任意のモデルファイルを高速で現在のディレクトリにダウンロードできます。
huggingface-cli download TheBloke/CausalLM-7B-GGUF causallm_7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
高度な huggingface-cli
のダウンロード方法
パターンを使用して複数のファイルを一度にダウンロードすることもできます。
huggingface-cli download TheBloke/CausalLM-7B-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
huggingface-cli
でのダウンロードの詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLI を参照してください。
高速インターネット接続(1Gbit/s 以上)でのダウンロードを高速化するには、hf_transfer
をインストールします。
pip3 install hf_transfer
そして、環境変数 HF_HUB_ENABLE_HF_TRANSFER
を 1
に設定します。
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/CausalLM-7B-GGUF causallm_7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows コマンドラインユーザーは、ダウンロードコマンドの前に set HF_HUB_ENABLE_HF_TRANSFER=1
を実行して環境変数を設定できます。
モデルの実行
llama.cpp
での実行例
llama.cpp
を d0cee0d 以降のコミットを使用していることを確認してください。
./main -ngl 32 -m causallm_7b.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"
-ngl 32
を GPU にオフロードするレイヤー数に変更します。GPU アクセラレーションがない場合は削除します。-c 4096
を目的のシーケンス長に変更します。拡張シーケンスモデル(例: 8K、16K、32K)の場合、必要な RoPE スケーリングパラメータは GGUF ファイルから読み取られ、llama.cpp によって自動的に設定されます。- チャットスタイルの会話を行う場合は、
-p <PROMPT>
引数を-i -ins
に置き換えます。
その他のパラメータとその使い方については、the llama.cpp documentation を参照してください。
text-generation-webui
での実行方法
詳細な手順は text-generation-webui/docs/llama.cpp.md を参照してください。
Python コードからの実行方法
llama-cpp-python または ctransformers ライブラリを使用して、Python から GGUF モデルを使用できます。
ctransformers
を使用したモデルの読み込み
まず、システムに応じて以下のコマンドのいずれかを実行してパッケージをインストールします。
# GPU アクセラレーションなしの基本的な ctransformers
pip install ctransformers
# または CUDA GPU アクセラレーション付き
pip install ctransformers[cuda]
# または AMD ROCm GPU アクセラレーション付き(Linux のみ)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# または macOS システムのみの Metal GPU アクセラレーション付き
CT_METAL=1 pip install ctransformers --no-binary ctransformers
簡単な ctransformers
のサンプルコード
from ctransformers import AutoModelForCausalLM
# gpu_layers を GPU にオフロードするレイヤー数に設定します。システムで GPU アクセラレーションが利用できない場合は 0 に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/CausalLM-7B-GGUF", model_file="causallm_7b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
LangChain との連携方法
LangChain で llama-cpp-python
と ctransformers
を使用するガイドは以下の通りです。
✨ 主な機能
- 多言語対応: 英語と中国語に対応しています。
- 多様なデータセットでの学習: 多様なデータセットで学習されており、幅広いテキスト生成タスクに対応しています。
- 複数の量子化形式: 複数の量子化形式が提供されており、ユーザーのニーズに合わせて最適な形式を選択できます。
📦 インストール
モデルのダウンロード方法については、「クイックスタート」セクションの「モデルのダウンロード」を参照してください。
💻 使用例
基本的な使用法
from ctransformers import AutoModelForCausalLM
llm = AutoModelForCausalLM.from_pretrained("TheBloke/CausalLM-7B-GGUF", model_file="causallm_7b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
高度な使用法
# 高度なシナリオの説明
# ここでは、特定のプロンプトを使用してモデルを実行する例を示します。
from ctransformers import AutoModelForCausalLM
llm = AutoModelForCausalLM.from_pretrained("TheBloke/CausalLM-7B-GGUF", model_file="causallm_7b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
prompt = "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"
print(llm(prompt))
📚 ドキュメント
プロンプトテンプレート
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
互換性
これらの量子化された GGUFv2 ファイルは、8 月 27 日以降の llama.cpp と互換性があります(コミット d0cee0d 以降)。また、多くのサードパーティの UI やライブラリとも互換性があります。詳細はこの README の冒頭のリストを参照してください。
量子化方法の説明
詳細を表示
利用可能な新しい方法は以下の通りです。
- GGML_TYPE_Q2_K - 16 ブロックを含むスーパーブロックでの「タイプ 1」2 ビット量子化。各ブロックには 16 個の重みがあります。ブロックのスケールと最小値は 4 ビットで量子化されます。これにより、実効的に 2.5625 ビット/重み (bpw) が使用されます。
- GGML_TYPE_Q3_K - 16 ブロックを含むスーパーブロックでの「タイプ 0」3 ビット量子化。各ブロックには 16 個の重みがあります。スケールは 6 ビットで量子化されます。これにより、3.4375 bpw が使用されます。
- GGML_TYPE_Q4_K - 8 ブロックを含むスーパーブロックでの「タイプ 1」4 ビット量子化。各ブロックには 32 個の重みがあります。スケールと最小値は 6 ビットで量子化されます。これにより、4.5 bpw が使用されます。
- GGML_TYPE_Q5_K - 「タイプ 1」5 ビット量子化。GGML_TYPE_Q4_K と同じスーパーブロック構造で、5.5 bpw となります。
- GGML_TYPE_Q6_K - 「タイプ 0」6 ビット量子化。16 ブロックを含むスーパーブロック。各ブロックには 16 個の重みがあります。スケールは 8 ビットで量子化されます。これにより、6.5625 bpw が使用されます。
使用される方法とその使用方法については、以下の「提供されるファイル」表を参照してください。
提供されるファイル
名前 | 量子化方法 | ビット数 | サイズ | 必要な最大 RAM | 使用ケース |
---|---|---|---|---|---|
causallm_7b.Q2_K.gguf | Q2_K | 2 | 3.40 GB | 5.90 GB | 最小サイズ、品質の大幅な損失 - ほとんどの目的には推奨されません |
causallm_7b.Q3_K_S.gguf | Q3_K_S | 3 | 3.57 GB | 6.07 GB | 非常に小さいサイズ、高い品質損失 |
causallm_7b.Q3_K_M.gguf | Q3_K_M | 3 | 3.92 GB | 6.42 GB | 非常に小さいサイズ、高い品質損失 |
causallm_7b.Q3_K_L.gguf | Q3_K_L | 3 | 4.22 GB | 6.72 GB | 小さいサイズ、大幅な品質損失 |
causallm_7b.Q4_0.gguf | Q4_0 | 4 | 4.51 GB | 7.01 GB | レガシー; 小さいサイズ、非常に高い品質損失 - Q3_K_M の使用を推奨 |
causallm_7b.Q4_K_S.gguf | Q4_K_S | 4 | 4.54 GB | 7.04 GB | 小さいサイズ、より大きな品質損失 |
causallm_7b.Q4_K_M.gguf | Q4_K_M | 4 | 4.77 GB | 7.27 GB | 中サイズ、バランスの良い品質 - 推奨 |
causallm_7b.Q5_0.gguf | Q5_0 | 5 | 5.40 GB | 7.90 GB | レガシー; 中サイズ、バランスの良い品質 - Q4_K_M の使用を推奨 |
causallm_7b.Q5_K_S.gguf | Q5_K_S | 5 | 5.40 GB | 7.90 GB | 大きいサイズ、低い品質損失 - 推奨 |
causallm_7b.Q5_K_M.gguf | Q5_K_M | 5 | 5.53 GB | 8.03 GB | 大きいサイズ、非常に低い品質損失 - 推奨 |
causallm_7b.Q6_K.gguf | Q6_K | 6 | 6.34 GB | 8.84 GB | 非常に大きいサイズ、極めて低い品質損失 |
causallm_7b.Q8_0.gguf | Q8_0 | 8 | 8.21 GB | 10.71 GB | 非常に大きいサイズ、極めて低い品質損失 - 推奨されません |
注意: 上記の RAM 数値は、GPU オフロードを行わない場合を想定しています。レイヤーを GPU にオフロードすると、RAM 使用量が減少し、代わりに VRAM が使用されます。
🔧 技術詳細
このモデルは Llama 2 をベースに構築されており、多様なデータセットで学習されています。量子化方法については、「ドキュメント」セクションの「量子化方法の説明」を参照してください。
📄 ライセンス
ソースモデルの作成者は、そのライセンスを wtfpl
としてリストしており、この量子化も同じライセンスを使用しています。このモデルは Llama 2 に基づいているため、Meta Llama 2 のライセンス条項の対象となり、そのライセンスファイルも追加で含まれています。したがって、このモデルは両方のライセンスの下でライセンスされていると見なされるべきです。デュアルライセンスについての明確化のために Hugging Face に問い合わせましたが、まだ公式の立場がありません。この状況が変更された場合、または Meta から何らかのフィードバックがあった場合、このセクションを適宜更新します。
現時点では、ライセンスに関する質問、特にこれら 2 つのライセンスがどのように相互作用するかについては、元のモデルリポジトリ CausalLM's CausalLM 7B に問い合わせてください。



