Japanese StableLM Instruct Gamma 7Bオープンソース日本語大規模言語モデル

ホーム

Japanese Stablelm Instruct Gamma 7B GGUF

TheBlokeによって開発

Japanese StableLM Instruct Gamma 7BはStability AIによって開発された日本語大規模言語モデルで、Mistralアーキテクチャを基盤としており、日本語の命令理解と生成タスクに特化しています。

大規模言語モデル日本語オープンソースライセンス:Apache-2.0 #日本語命令ファインチューニング #7Bパラメータ #Mistralアーキテクチャ

ダウンロード数 1,583

リリース時間 : 10/28/2023

モデル概要

これは7Bパラメータの日本語命令ファインチューニングモデルで、日本語テキストの理解と生成のために設計されており、様々な自然言語処理タスクに適しています。

モデル特徴

日本語最適化

日本語の言語特性に特化して最適化されており、日本語テキストをより良く理解し生成できます。

命令追従

命令ファインチューニングを経ており、ユーザーが提供する命令をより良く理解し実行できます。

効率的な推論

7Bパラメータ規模で良好な性能を維持しつつ、比較的高効率な推論を実現しています。

モデル能力

日本語テキスト生成

命令理解と実行

対話システム

コンテンツ作成

質問応答システム

使用事例

コンテンツ作成

日本語記事執筆

ユーザーが提供するテーマと指示に基づいて高品質な日本語記事を生成

日本語の表現習慣に合致した一貫性のあるテキストを生成

インテリジェントアシスタント

日本語対話システム

日本語で自然な会話が可能なチャットボットを構築

流暢で自然な日本語会話体験

🚀 Japanese StableLM Instruct Gamma 7B - GGUF

このモデルは、Stability AIによって開発されたJapanese StableLM Instruct Gamma 7BのGGUF形式のモデルファイルを提供します。GGUF形式は、GPUやCPUでの推論に最適化されており、様々なクライアントやライブラリで利用できます。

🚀 クイックスタート

このモデルを使用するには、まずGGUF形式のモデルファイルをダウンロードする必要があります。ダウンロード方法や使用方法については、以下のセクションで詳しく説明します。

✨ 主な機能

多言語対応：特に日本語に最適化されています。
多様なクライアントサポート：llama.cpp、text-generation-webui、KoboldCppなど、多くのクライアントやライブラリで利用できます。
量子化モデルの提供：様々な量子化方法によるモデルが用意されており、メモリ使用量と精度のバランスを選択できます。

📦 インストール

GGUFファイルのダウンロード

自動ダウンロード

以下のクライアントやライブラリを使用すると、利用可能なモデルのリストから選択して自動的にダウンロードできます。

LM Studio
LoLLMS Web UI
Faraday.dev

text-generation-webuiでのダウンロード

「Download Model」の下にあるモデルリポジトリに TheBloke/japanese-stablelm-instruct-gamma-7B-GGUF を入力し、その下にダウンロードするファイル名（例：japanese-stablelm-instruct-gamma-7b.Q4_K_M.gguf）を指定して「Download」をクリックします。

コマンドラインでのダウンロード

huggingface-hub Pythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub

次に、以下のコマンドで任意のモデルファイルを現在のディレクトリに高速でダウンロードできます。

huggingface-cli download TheBloke/japanese-stablelm-instruct-gamma-7B-GGUF japanese-stablelm-instruct-gamma-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

💻 使用例

llama.cppでの実行例

llama.cpp を d0cee0d 以降のコミットを使用していることを確認してください。

./main -ngl 32 -m japanese-stablelm-instruct-gamma-7b.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。\n\n### 指示: \n{prompt}\n\n### 入力: \n{input}\n\n### 応答:"

-ngl 32 はGPUにオフロードするレイヤー数です。GPUアクセラレーションがない場合は削除してください。
-c 2048 は必要なシーケンス長です。拡張シーケンスモデル（8K、16K、32Kなど）の場合は、必要なRoPEスケーリングパラメータがGGUFファイルから読み取られ、llama.cppによって自動的に設定されます。
チャットスタイルの会話を行いたい場合は、-p <PROMPT> 引数を -i -ins に置き換えてください。

text-generation-webuiでの実行方法

詳細な手順は、text-generation-webui/docs/llama.cpp.md を参照してください。

Pythonコードからの実行方法

llama-cpp-python または ctransformers ライブラリを使用して、PythonからGGUFモデルを利用できます。

ctransformersを使用したPythonコードの例

まず、パッケージをインストールします。

# GPUアクセラレーションなしの基本的なctransformers
pip install ctransformers
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]
# またはAMD ROCm GPUアクセラレーション付き（Linuxのみ）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# またはmacOSシステムのみのMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers --no-binary ctransformers

簡単なコード例：

from ctransformers import AutoModelForCausalLM

# gpu_layersをGPUにオフロードするレイヤー数に設定します。システムにGPUアクセラレーションがない場合は0に設定します。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/japanese-stablelm-instruct-gamma-7B-GGUF", model_file="japanese-stablelm-instruct-gamma-7b.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)

print(llm("AI is going to"))

📚 詳細ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	mistral
訓練データ	未提供
モデル作成者	Stability AI
元のモデル	Japanese StableLM Instruct Gamma 7B

プロンプトテンプレート

以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

### 指示: 
{prompt}

### 入力: 
{input}

### 応答:

互換性

これらの量子化されたGGUFv2ファイルは、2023年8月27日以降のllama.cpp（コミット d0cee0d 以降）と互換性があります。また、多くのサードパーティのUIやライブラリとも互換性があります。

量子化方法の説明

詳細を表示するにはクリック

利用可能な新しい方法は以下の通りです。

GGML_TYPE_Q2_K：16個のブロックを含むスーパーブロックでの「タイプ1」の2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、1重みあたり実質的に2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K：16個のブロックを含むスーパーブロックでの「タイプ0」の3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。
GGML_TYPE_Q4_K：8個のブロックを含むスーパーブロックでの「タイプ1」の4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。
GGML_TYPE_Q5_K：「タイプ1」の5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。
GGML_TYPE_Q6_K：「タイプ0」の6ビット量子化。16個のブロックを含むスーパーブロック。各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。

提供されているファイルがどの方法を使用しているかについては、以下の「提供されているファイル」の表を参照してください。

提供されているファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用例
japanese-stablelm-instruct-gamma-7b.Q2_K.gguf	Q2_K	2	3.08 GB	5.58 GB	最小サイズだが、品質が大幅に低下する。ほとんどの用途では推奨されない。
japanese-stablelm-instruct-gamma-7b.Q3_K_S.gguf	Q3_K_S	3	3.16 GB	5.66 GB	非常に小さいが、品質が大きく低下する。
japanese-stablelm-instruct-gamma-7b.Q3_K_M.gguf	Q3_K_M	3	3.52 GB	6.02 GB	非常に小さいが、品質が大きく低下する。
japanese-stablelm-instruct-gamma-7b.Q3_K_L.gguf	Q3_K_L	3	3.82 GB	6.32 GB	小さいが、品質が大幅に低下する。
japanese-stablelm-instruct-gamma-7b.Q4_0.gguf	Q4_0	4	4.11 GB	6.61 GB	レガシー。小さいが、品質が非常に大きく低下する。Q3_K_Mの使用を推奨。
japanese-stablelm-instruct-gamma-7b.Q4_K_S.gguf	Q4_K_S	4	4.14 GB	6.64 GB	小さいが、品質が大きく低下する。
japanese-stablelm-instruct-gamma-7b.Q4_K_M.gguf	Q4_K_M	4	4.37 GB	6.87 GB	中程度のサイズで、バランスの良い品質。推奨。
japanese-stablelm-instruct-gamma-7b.Q5_0.gguf	Q5_0	5	5.00 GB	7.50 GB	レガシー。中程度のサイズで、バランスの良い品質。Q4_K_Mの使用を推奨。
japanese-stablelm-instruct-gamma-7b.Q5_K_S.gguf	Q5_K_S	5	5.00 GB	7.50 GB	大きいが、品質の低下が少ない。推奨。
japanese-stablelm-instruct-gamma-7b.Q5_K_M.gguf	Q5_K_M	5	5.13 GB	7.63 GB	大きいが、品質の低下が非常に少ない。推奨。
japanese-stablelm-instruct-gamma-7b.Q6_K.gguf	Q6_K	6	5.94 GB	8.44 GB	非常に大きいが、品質の低下が極めて少ない。
japanese-stablelm-instruct-gamma-7b.Q8_0.gguf	Q8_0	8	7.70 GB	10.20 GB	非常に大きいが、品質の低下が極めて少ない。推奨されない。

注：上記のRAM数値は、GPUオフロードがない場合を想定しています。レイヤーをGPUにオフロードすると、RAM使用量が減少し、代わりにVRAMが使用されます。

🔧 技術詳細

GGUF形式：llama.cppチームによって2023年8月21日に導入された新しい形式で、GGMLの代替となります。GGMLはllama.cppではもはやサポートされていません。
量子化：提供されているモデルファイルは、Massed Compute が提供するハードウェアを使用して量子化されています。