CausalLM-7B-GGUFオープンソース大規模言語モデル - 中国語と英語のテキストに対応した無料なコンテンツ生成

ホーム

Causallm 7B GGUF

TheBlokeによって開発

CausalLM 7BはLlama 2アーキテクチャに基づく多言語大規模言語モデルで、中英テキスト生成タスクをサポートします。

大規模言語モデル複数言語対応#多言語対話 #知識拡張 #命令微調整

ダウンロード数 2,776

リリース時間 : 10/22/2023

モデル概要

このモデルは7Bパラメータ規模の大規模言語モデルで、ChatMLプロンプトテンプレートを採用し、様々なテキスト生成シナリオに適しています。

モデル特徴

多言語サポート

英語と中国語のテキスト生成を同時にサポート

ChatMLプロンプトテンプレート

標準化されたChatMLフォーマットを使用した対話型インタラクション

多様なトレーニングデータ

20以上の高品質データセットを統合してトレーニング

モデル能力

テキスト生成

対話システム

質問応答システム

コンテンツ作成

使用事例

対話システム

インテリジェントカスタマーサービス

中英バイリンガルカスタマーサービスロボットの構築に使用

コンテンツ作成

記事生成

中英記事作成の補助

🚀 CausalLM 7B - GGUF

このモデルは、自然言語処理におけるテキスト生成タスクに特化したモデルです。多様なデータセットで学習され、英語と中国語に対応しています。

🚀 クイックスタート

このセクションでは、CausalLM 7B - GGUF モデルの基本的な使い方を説明します。

モデル情報

属性	詳情
モデルタイプ	llama
訓練データ	JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca、stingning/ultrachat、meta-math/MetaMathQA、liuhaotian/LLaVA-Instruct-150K、jondurbin/airoboros-3.1、WizardLM/WizardLM_evol_instruct_V2_196k、RyokoAI/ShareGPT52K、RyokoAI/Fandom23K、milashkaarshif/MoeGirlPedia_wikitext_raw_archive、wikipedia、wiki_lingua、fnlp/moss-003-sft-data、garage-bAInd/Open-Platypus、LDJnr/Puffin、openbmb/llava_zh、BAAI/COIG、TigerResearch/tigerbot-zhihu-zh-10k、liwu/MNBVC、teknium/openhermes

属性

詳情

モデルタイプ

llama

訓練データ

JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca、stingning/ultrachat、meta-math/MetaMathQA、liuhaotian/LLaVA-Instruct-150K、jondurbin/airoboros-3.1、WizardLM/WizardLM_evol_instruct_V2_196k、RyokoAI/ShareGPT52K、RyokoAI/Fandom23K、milashkaarshif/MoeGirlPedia_wikitext_raw_archive、wikipedia、wiki_lingua、fnlp/moss-003-sft-data、garage-bAInd/Open-Platypus、LDJnr/Puffin、openbmb/llava_zh、BAAI/COIG、TigerResearch/tigerbot-zhihu-zh-10k、liwu/MNBVC、teknium/openhermes

モデルのダウンロード

ダウンロード方法の詳細を表示

手動ダウンロードの注意点: 通常、リポジトリ全体をクローンする必要はありません。複数の量子化形式が提供されており、ほとんどのユーザーは1つのファイルを選択してダウンロードするだけです。

以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。

LM Studio
LoLLMS Web UI
Faraday.dev

`text-generation-webui` でのダウンロード

「Download Model」の下で、モデルリポジトリ TheBloke/CausalLM-7B-GGUF を入力し、その下にダウンロードする特定のファイル名（例: causallm_7b.Q4_K_M.gguf）を入力します。そして「Download」をクリックします。

コマンドラインでのダウンロード

huggingface-hub Python ライブラリを使用することをおすすめします。

pip3 install huggingface-hub

次に、以下のようなコマンドで任意のモデルファイルを高速で現在のディレクトリにダウンロードできます。

huggingface-cli download TheBloke/CausalLM-7B-GGUF causallm_7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

高度な `huggingface-cli` のダウンロード方法

パターンを使用して複数のファイルを一度にダウンロードすることもできます。

huggingface-cli download TheBloke/CausalLM-7B-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

huggingface-cli でのダウンロードの詳細なドキュメントについては、HF -> Hub Python Library -> Download files -> Download from the CLI を参照してください。

高速インターネット接続（1Gbit/s 以上）でのダウンロードを高速化するには、hf_transfer をインストールします。

pip3 install hf_transfer

そして、環境変数 HF_HUB_ENABLE_HF_TRANSFER を 1 に設定します。

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/CausalLM-7B-GGUF causallm_7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows コマンドラインユーザーは、ダウンロードコマンドの前に set HF_HUB_ENABLE_HF_TRANSFER=1 を実行して環境変数を設定できます。

モデルの実行

`llama.cpp` での実行例

llama.cpp を d0cee0d 以降のコミットを使用していることを確認してください。

./main -ngl 32 -m causallm_7b.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"

-ngl 32 を GPU にオフロードするレイヤー数に変更します。GPU アクセラレーションがない場合は削除します。
-c 4096 を目的のシーケンス長に変更します。拡張シーケンスモデル（例: 8K、16K、32K）の場合、必要な RoPE スケーリングパラメータは GGUF ファイルから読み取られ、llama.cpp によって自動的に設定されます。
チャットスタイルの会話を行う場合は、-p <PROMPT> 引数を -i -ins に置き換えます。

その他のパラメータとその使い方については、the llama.cpp documentation を参照してください。

`text-generation-webui` での実行方法

詳細な手順は text-generation-webui/docs/llama.cpp.md を参照してください。

Python コードからの実行方法

llama-cpp-python または ctransformers ライブラリを使用して、Python から GGUF モデルを使用できます。

`ctransformers` を使用したモデルの読み込み

まず、システムに応じて以下のコマンドのいずれかを実行してパッケージをインストールします。

# GPU アクセラレーションなしの基本的な ctransformers
pip install ctransformers
# または CUDA GPU アクセラレーション付き
pip install ctransformers[cuda]
# または AMD ROCm GPU アクセラレーション付き（Linux のみ）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# または macOS システムのみの Metal GPU アクセラレーション付き
CT_METAL=1 pip install ctransformers --no-binary ctransformers

簡単な `ctransformers` のサンプルコード

from ctransformers import AutoModelForCausalLM

# gpu_layers を GPU にオフロードするレイヤー数に設定します。システムで GPU アクセラレーションが利用できない場合は 0 に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/CausalLM-7B-GGUF", model_file="causallm_7b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

LangChain との連携方法

LangChain で llama-cpp-python と ctransformers を使用するガイドは以下の通りです。

✨ 主な機能

多言語対応: 英語と中国語に対応しています。
多様なデータセットでの学習: 多様なデータセットで学習されており、幅広いテキスト生成タスクに対応しています。
複数の量子化形式: 複数の量子化形式が提供されており、ユーザーのニーズに合わせて最適な形式を選択できます。

📦 インストール

モデルのダウンロード方法については、「クイックスタート」セクションの「モデルのダウンロード」を参照してください。

💻 使用例

基本的な使用法

from ctransformers import AutoModelForCausalLM

llm = AutoModelForCausalLM.from_pretrained("TheBloke/CausalLM-7B-GGUF", model_file="causallm_7b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

高度な使用法

# 高度なシナリオの説明
# ここでは、特定のプロンプトを使用してモデルを実行する例を示します。
from ctransformers import AutoModelForCausalLM

llm = AutoModelForCausalLM.from_pretrained("TheBloke/CausalLM-7B-GGUF", model_file="causallm_7b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

prompt = "<|im_start|>system\n{system_message}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant"
print(llm(prompt))

📚 ドキュメント

プロンプトテンプレート

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

互換性

これらの量子化された GGUFv2 ファイルは、8 月 27 日以降の llama.cpp と互換性があります（コミット d0cee0d 以降）。また、多くのサードパーティの UI やライブラリとも互換性があります。詳細はこの README の冒頭のリストを参照してください。

量子化方法の説明

詳細を表示

利用可能な新しい方法は以下の通りです。

GGML_TYPE_Q2_K - 16 ブロックを含むスーパーブロックでの「タイプ 1」2 ビット量子化。各ブロックには 16 個の重みがあります。ブロックのスケールと最小値は 4 ビットで量子化されます。これにより、実効的に 2.5625 ビット/重み (bpw) が使用されます。
GGML_TYPE_Q3_K - 16 ブロックを含むスーパーブロックでの「タイプ 0」3 ビット量子化。各ブロックには 16 個の重みがあります。スケールは 6 ビットで量子化されます。これにより、3.4375 bpw が使用されます。
GGML_TYPE_Q4_K - 8 ブロックを含むスーパーブロックでの「タイプ 1」4 ビット量子化。各ブロックには 32 個の重みがあります。スケールと最小値は 6 ビットで量子化されます。これにより、4.5 bpw が使用されます。
GGML_TYPE_Q5_K - 「タイプ 1」5 ビット量子化。GGML_TYPE_Q4_K と同じスーパーブロック構造で、5.5 bpw となります。
GGML_TYPE_Q6_K - 「タイプ 0」6 ビット量子化。16 ブロックを含むスーパーブロック。各ブロックには 16 個の重みがあります。スケールは 8 ビットで量子化されます。これにより、6.5625 bpw が使用されます。

使用される方法とその使用方法については、以下の「提供されるファイル」表を参照してください。

提供されるファイル

名前	量子化方法	ビット数	サイズ	必要な最大 RAM	使用ケース
causallm_7b.Q2_K.gguf	Q2_K	2	3.40 GB	5.90 GB	最小サイズ、品質の大幅な損失 - ほとんどの目的には推奨されません
causallm_7b.Q3_K_S.gguf	Q3_K_S	3	3.57 GB	6.07 GB	非常に小さいサイズ、高い品質損失
causallm_7b.Q3_K_M.gguf	Q3_K_M	3	3.92 GB	6.42 GB	非常に小さいサイズ、高い品質損失
causallm_7b.Q3_K_L.gguf	Q3_K_L	3	4.22 GB	6.72 GB	小さいサイズ、大幅な品質損失
causallm_7b.Q4_0.gguf	Q4_0	4	4.51 GB	7.01 GB	レガシー; 小さいサイズ、非常に高い品質損失 - Q3_K_M の使用を推奨
causallm_7b.Q4_K_S.gguf	Q4_K_S	4	4.54 GB	7.04 GB	小さいサイズ、より大きな品質損失
causallm_7b.Q4_K_M.gguf	Q4_K_M	4	4.77 GB	7.27 GB	中サイズ、バランスの良い品質 - 推奨
causallm_7b.Q5_0.gguf	Q5_0	5	5.40 GB	7.90 GB	レガシー; 中サイズ、バランスの良い品質 - Q4_K_M の使用を推奨
causallm_7b.Q5_K_S.gguf	Q5_K_S	5	5.40 GB	7.90 GB	大きいサイズ、低い品質損失 - 推奨
causallm_7b.Q5_K_M.gguf	Q5_K_M	5	5.53 GB	8.03 GB	大きいサイズ、非常に低い品質損失 - 推奨
causallm_7b.Q6_K.gguf	Q6_K	6	6.34 GB	8.84 GB	非常に大きいサイズ、極めて低い品質損失
causallm_7b.Q8_0.gguf	Q8_0	8	8.21 GB	10.71 GB	非常に大きいサイズ、極めて低い品質損失 - 推奨されません

注意: 上記の RAM 数値は、GPU オフロードを行わない場合を想定しています。レイヤーを GPU にオフロードすると、RAM 使用量が減少し、代わりに VRAM が使用されます。

🔧 技術詳細

このモデルは Llama 2 をベースに構築されており、多様なデータセットで学習されています。量子化方法については、「ドキュメント」セクションの「量子化方法の説明」を参照してください。

📄 ライセンス

ソースモデルの作成者は、そのライセンスを wtfpl としてリストしており、この量子化も同じライセンスを使用しています。このモデルは Llama 2 に基づいているため、Meta Llama 2 のライセンス条項の対象となり、そのライセンスファイルも追加で含まれています。したがって、このモデルは両方のライセンスの下でライセンスされていると見なされるべきです。デュアルライセンスについての明確化のために Hugging Face に問い合わせましたが、まだ公式の立場がありません。この状況が変更された場合、または Meta から何らかのフィードバックがあった場合、このセクションを適宜更新します。

現時点では、ライセンスに関する質問、特にこれら 2 つのライセンスがどのように相互作用するかについては、元のモデルリポジトリ CausalLM's CausalLM 7B に問い合わせてください。