qCammel-70-x-GGUFオープンソース大規模言語モデル - 無料でデプロイしてテキスト生成タスクを効率的に完了

Qcammel 70 X GGUF

TheBlokeによって開発

qCammel 70はLlama 2アーキテクチャに基づく大規模言語モデルで、augtomaによって開発され、TheBlokeによって量子化処理されました。このモデルはテキスト生成タスクに特化しており、さまざまなハードウェア要件に対応するために複数の量子化バージョンを提供しています。

大規模言語モデル英語オープンソースライセンス:その他 #Llama2アーキテクチャ #マルチターン対話最適化 #70Bパラメータ

ダウンロード数 1,264

リリース時間 : 9/5/2023

モデル概要

qCammel 70はLlama 2アーキテクチャに基づく大規模言語モデルで、推論効率を最適化するために量子化処理されています。英文テキスト生成をサポートし、対話システムやコンテンツ作成などのシナリオに適しています。

モデル特徴

多様な量子化オプション

2ビットから8ビットまでの多様な量子化バージョンを提供し、異なるハードウェア構成と性能要件に対応します

効率的な推論

GGUFフォーマットを採用して推論効率を最適化し、CPUとGPUの加速をサポートします

対話最適化

Vicunaスタイルのプロンプトテンプレートを使用し、対話インタラクション体験を最適化します

モデル能力

テキスト生成

対話システム

コンテンツ作成

使用事例

対話システム

インテリジェントアシスタント

ユーザーのクエリを理解し応答するインテリジェントな対話システムを構築

役立ち、詳細で礼儀正しい回答を提供

コンテンツ作成

クリエイティブライティング

ストーリー創作、詩の執筆などのクリエイティブなコンテンツ生成を支援

🚀 qCammel 70 - GGUF

このモデルは、自然言語処理におけるテキスト生成タスクに特化しており、多くのクライアントやライブラリと互換性があり、様々な環境での利用が可能です。

🚀 クイックスタート

このセクションでは、qCammel 70 - GGUF モデルの基本的な使い方や関連情報を提供します。

✨ 主な機能

このリポジトリには、augtoma's qCammel 70 のGGUF形式のモデルファイルが含まれています。
GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式で、GGMLの代替となります。GGMLはllama.cppではもはやサポートされていません。GGUFは、GGMLに比べて多くの利点があり、より良いトークン化や特殊トークンのサポート、メタデータのサポート、拡張性が設計されています。

📦 インストール

モデルのダウンロード方法

手動ダウンロードの注意点: 通常、リポジトリ全体をクローンする必要はほとんどありません！複数の異なる量子化形式が提供されており、ほとんどのユーザーは1つのファイルを選択してダウンロードするだけです。

以下のクライアント/ライブラリは、利用可能なモデルのリストを提供し、自動的にモデルをダウンロードします。

LM Studio
LoLLMS Web UI
Faraday.dev

`text-generation-webui` でのダウンロード

「Download Model」の下で、モデルリポジトリ TheBloke/qCammel-70-x-GGUF を入力し、その下にダウンロードする特定のファイル名（例: qcammel-70-x.q4_K_M.gguf）を入力します。そして「Download」をクリックします。

コマンドラインでのダウンロード（複数のファイルを一度に含む）

huggingface-hub Pythonライブラリを使用することをおすすめします。

pip3 install huggingface-hub>=0.17.1

次に、以下のようなコマンドで、任意の個々のモデルファイルを高速で現在のディレクトリにダウンロードできます。

huggingface-cli download TheBloke/qCammel-70-x-GGUF qcammel-70-x.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

💻 使用例

基本的な使用法

llama.cpp での実行例:

./main -ngl 32 -m qcammel-70-x.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"

-ngl 32 をGPUにオフロードするレイヤー数に変更します。GPUアクセラレーションがない場合は削除します。
-c 4096 を目的のシーケンス長に変更します。拡張シーケンスモデル（例: 8K、16K、32K）の場合、必要なRoPEスケーリングパラメータはGGUFファイルから読み取られ、llama.cppによって自動的に設定されます。
チャットスタイルの会話を行いたい場合は、-p <PROMPT> 引数を -i -ins に置き換えます。

高度な使用法

Pythonコードからの実行例:

from ctransformers import AutoModelForCausalLM

# パッケージのインストール
# 基本のctransformers（GPUアクセラレーションなし）
pip install ctransformers>=0.2.24
# またはCUDA GPUアクセラレーション付き
pip install ctransformers[cuda]>=0.2.24
# またはROCm GPUアクセラレーション付き
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# またはmacOSシステムのMetal GPUアクセラレーション付き
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

# モデルのロード
model = AutoModelForCausalLM.from_pretrained('TheBloke/qCammel-70-x-GGUF', model_file='qcammel-70-x.q4_K_M.gguf')

📚 ドキュメント

提供されているファイル

名前	量子化方法	ビット数	サイズ	必要な最大RAM	使用ケース
qcammel-70-x.Q2_K.gguf	Q2_K	2	29.28 GB	31.78 GB	最小サイズ、品質が大幅に損失する - ほとんどの用途では推奨されない
qcammel-70-x.Q3_K_S.gguf	Q3_K_S	3	29.92 GB	32.42 GB	非常に小さい、高い品質損失
qcammel-70-x.Q3_K_M.gguf	Q3_K_M	3	33.19 GB	35.69 GB	非常に小さい、高い品質損失
qcammel-70-x.Q3_K_L.gguf	Q3_K_L	3	36.15 GB	38.65 GB	小さい、かなりの品質損失
qcammel-70-x.Q4_0.gguf	Q4_0	4	38.87 GB	41.37 GB	レガシー; 小さい、非常に高い品質損失 - Q3_K_Mを使用することを推奨
qcammel-70-x.Q4_K_S.gguf	Q4_K_S	4	39.07 GB	41.57 GB	小さい、より大きな品質損失
qcammel-70-x.Q4_K_M.gguf	Q4_K_M	4	41.42 GB	43.92 GB	中程度、バランスの良い品質 - 推奨
qcammel-70-x.Q5_0.gguf	Q5_0	5	47.46 GB	49.96 GB	レガシー; 中程度、バランスの良い品質 - Q4_K_Mを使用することを推奨
qcammel-70-x.Q5_K_S.gguf	Q5_K_S	5	47.46 GB	49.96 GB	大きい、低い品質損失 - 推奨
qcammel-70-x.Q5_K_M.gguf	Q5_K_M	5	48.75 GB	51.25 GB	大きい、非常に低い品質損失 - 推奨
qcammel-70-x.Q6_K.gguf	Q6_K	6	56.59 GB	59.09 GB	非常に大きい、極めて低い品質損失
qcammel-70-x.Q8_0.gguf	Q8_0	8	73.29 GB	75.79 GB	非常に大きい、極めて低い品質損失 - 推奨されない

注意: 上記のRAM数値は、GPUオフロードを行わない場合を想定しています。レイヤーをGPUにオフロードすると、RAM使用量が減少し、代わりにVRAMが使用されます。

🔧 技術詳細

GGUF形式について

GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式で、GGMLの代替となります。GGMLはllama.cppではもはやサポートされていません。GGUFは、GGMLに比べて多くの利点があり、より良いトークン化や特殊トークンのサポート、メタデータのサポート、拡張性が設計されています。

量子化方法の説明

詳細を表示するにはクリック

新しい方法は以下の通りです。

GGML_TYPE_Q2_K - 16個のブロックを含むスーパーブロックでの「タイプ1」2ビット量子化。各ブロックには16個の重みがあります。ブロックのスケールと最小値は4ビットで量子化されます。これにより、実質的に重みあたり2.5625ビット（bpw）が使用されます。
GGML_TYPE_Q3_K - 16個のブロックを含むスーパーブロックでの「タイプ0」3ビット量子化。各ブロックには16個の重みがあります。スケールは6ビットで量子化されます。これにより、3.4375bpwが使用されます。
GGML_TYPE_Q4_K - 8個のブロックを含むスーパーブロックでの「タイプ1」4ビット量子化。各ブロックには32個の重みがあります。スケールと最小値は6ビットで量子化されます。これにより、4.5bpwが使用されます。
GGML_TYPE_Q5_K - 「タイプ1」5ビット量子化。GGML_TYPE_Q4_Kと同じスーパーブロック構造で、5.5bpwになります。
GGML_TYPE_Q6_K - 「タイプ0」6ビット量子化。16個のブロックを含むスーパーブロック。各ブロックには16個の重みがあります。スケールは8ビットで量子化されます。これにより、6.5625bpwが使用されます。

以下の「提供されているファイル」表を参照して、どのファイルがどの方法を使用しているか、およびその方法を確認してください。

📄 ライセンス

ソースモデルの作成者は、そのライセンスを other としてリストしており、この量子化も同じライセンスを使用しています。

このモデルはLlama 2をベースにしているため、Meta Llama 2のライセンス条項の対象となり、そのライセンスファイルも追加で含まれています。したがって、このモデルは両方のライセンスの下でライセンスされていると見なされるべきです。デュアルライセンスについての明確化のためにHugging Faceに問い合わせましたが、まだ公式の立場がありません。この状況が変更された場合、またはMetaからこの状況に関するフィードバックがあった場合、このセクションを適宜更新します。

その間、ライセンスに関する質問、特にこれら2つのライセンスがどのように相互作用するかについては、元のモデルリポジトリ augtoma's qCammel 70 に問い合わせてください。