Falcon-7B-Instruct-GPTQオープンソースモデル - リソース制限環境に適した効率的な推論ツール

ホーム

Falcon 7B Instruct GPTQ

TheBlokeによって開発

Falcon-7B-Instructの4ビット量子化バージョンで、AutoGPTQツールを使用して量子化され、リソースが制限された環境での効率的な推論に適しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #4ビット量子化推論 #多言語命令微調整 #多クエリアテンション

ダウンロード数 189

リリース時間 : 5/27/2023

モデル概要

これはFalcon-7B-Instructに対する4ビット量子化モデルで、モデルサイズと計算リソースの要件を削減しながら、良好な性能を維持することを目的としています。

モデル特徴

4ビット量子化

AutoGPTQツールを使用して4ビット量子化を行い、モデルサイズとメモリ使用量を大幅に削減します。

効率的な推論

量子化による最適化により、リソースが制限された環境でも良好な推論性能を維持できます。

多言語対応

英語とフランス語のテキスト生成タスクをサポートします。

命令微調整

命令とチャットデータセットで微調整されており、対話や質問応答シーンに適しています。

モデル能力

テキスト生成

対話システム

質問応答システム

命令追従

使用事例

対話システム

スマートアシスタント

ユーザーの質問を理解して応答できるスマート対話アシスタントを構築します。

首尾一貫した関連する回答を生成できます

コンテンツ生成

テキスト創作

物語の執筆、記事の生成など、さまざまなテキスト創作タスクを支援します。

流暢で論理的なテキストコンテンツを生成します

🚀 Falcon-7B-Instruct GPTQ

このリポジトリには、Falcon-7B-Instruct 用の実験的なGPTQ 4ビットモデルが含まれています。これは、AutoGPTQ を使用して4ビット量子化された結果です。

プロジェクトのヘッダー情報

チャットとサポート：TheBlokeのDiscordサーバー

貢献したい場合：TheBlokeのPatreonページ

TheBlokeの大規模言語モデルに関する作業は、andreessen horowitz (a16z) からの慷慨な資金提供を受けています。

🚀 クイックスタート

このプロジェクトでは、Falcon-7B-InstructのGPTQ 4ビット量子化モデルを提供しています。以下では、このモデルのダウンロードと使用方法を説明します。

✨ 主な機能

このモデルは、AutoGPTQツールを使用してFalcon-7B-Instructを4ビット量子化したものです。
このモデルは、最新のGPTQ-for-LLaMaコードでより良いパフォーマンスを発揮する可能性があります。
ユーザーがすぐに使い始められるように、簡単なPythonのサンプルコードを提供しています。

📦 インストール

AutoGPTQのインストール

AutoGPTQは必須の依存ライブラリです。以下のコマンドを使用してインストールできます。

GITHUB_ACTIONS=true pip install auto-gptq

AutoGPTQはWindowsとLinux用の事前コンパイル済みのホイールを提供しており、CUDAツールキット11.7または11.8が必要です。CUDAツールキット12.xを使用している場合は、以下の手順で手動でコンパイルする必要があります。

git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip install .

手動でのコンパイルには、Nvidia CUDAツールキットのインストールが必要です。

Pythonサンプルコードを実行するための依存関係

サンプルコードを実行するには、einopsもインストールする必要があります。

pip install einops

💻 使用例

基本的な使用法

text-generation-webuiでこのモデルをダウンロードして使用する手順は次の通りです。

text-generation-webuiを起動します。
モデル タブをクリックします。
自動でモデルをロードする のチェックを外します。
カスタムモデルまたはLoRAをダウンロードする の下に、TheBloke/falcon-7B-instruct-GPTQ を入力します。
ダウンロード をクリックします。
ダウンロードが完了するのを待ちます。
左上の モデル の横にある更新アイコンをクリックします。
モデルのドロップダウンボックス で、先ほどダウンロードしたモデル falcon-7B-instruct-GPTQ を選択します。
ローダー を AutoGPTQ に設定します。このモデルはExLlamaには適さず、最新のGPTQ-for-LLaMaで動作する可能性がありますが、テストされていません。
リモートコードを信頼する にチェックを入れ、設定を保存 をクリックします。
再読み込み をクリックします。
モデルがロードされたことが表示されたら、テキスト生成 タブをクリックしてプロンプトを入力します！

高度な使用法

以下は、このモデルを使用してテキスト生成を行う簡単なPythonのサンプルコードです。

from transformers import AutoTokenizer, pipeline, logging
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
import argparse

model_name_or_path = "TheBloke/falcon-7b-instruct-GPTQ"
# モデルをローカルにダウンロードしてアクセスすることもできます
# model_name_or_path = "/path/to/TheBloke_falcon-7b-instruct-GPTQ"

model_basename = "model"

use_triton = False

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
        model_basename=model_basename,
        use_safetensors=True,
        trust_remote_code=True,
        device="cuda:0",
        use_triton=use_triton,
        quantize_config=None)

prompt = "Tell me about AI"
prompt_template=f'''A helpful assistant who helps the user with any questions asked.
User: {prompt}
Assistant:'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# transformersのpipelineを使用して推論を行うこともできます
# 注意: pipelineを使用すると、モデルタイプがサポートされていないという誤ったエラーメッセージが表示されます
# このメッセージは無視してください！または、以下のログ記録行を使用して非表示にすることができます
# pipelineとAutoGPTQを使用する際に誤ったtransformersエラーが表示されないようにする
logging.set_verbosity(logging.CRITICAL)

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.95,
    repetition_penalty=1.15
)

print(pipe(prompt_template)[0]['generated_text'])

📚 ドキュメント

`trust_remote_code` について

このコマンドライン引数により、Falconが提供するPythonコードがあなたのマシン上で実行されます。現在、Falconが新しすぎてHugging Face transformersがサポートしていないため、このコードが必要です。将来的には、transformersがこのモデルをネイティブにサポートするようになり、trust_remote_code は不要になります。このリポジトリには2つの .py ファイルがあり、これらが実行されるファイルで、Falcon-7B-Instruct のベースリポジトリからコピーされたものです。

提供されるファイル

gptq_model-4bit-64g.safetensors このファイルはAutoGPTQ 0.2.0以降に対応しています。推論品質を向上させるためにグループサイズ64を使用し、推論速度を向上させるために desc_act（アクティベーション順序）を使用していません。

gptq_model-4bit-64g.safetensors
- AutoGPTQ CUDA 0.2.0以降に対応しています。現在、AutoGPTQ Tritonには対応していませんが、将来的にサポートが追加される見込みです。
- text-generation-webuiで --trust-remote-code を使用してロードできます。
- どのバージョンのGPTQ-for-LLaMaにも対応していません。
- パラメータ：グループサイズ = 64、アクティベーション順序なし。

元のモデル情報

モデルの詳細

属性	詳細
開発元	https://www.tii.ae
モデルタイプ	因果デコーダー
言語	英語とフランス語
ライセンス	TII Falcon LLMライセンス
ファインチューニングのベースモデル	Falcon-7B

用途

直接使用：Falcon-7B-Instructは、命令とチャットデータセットの混合データでファインチューニングされています。
範囲外の使用：十分なリスク評価と緩和策がない状態での本番環境での使用；責任がないまたは有害と見なされる可能性のある使用シナリオ。

バイアス、リスク、制限事項

Falcon-7B-Instructは主に英語のデータで訓練されているため、他の言語にうまく汎化できない可能性があります。また、大規模なウェブコーパスで訓練されているため、ウェブ上で一般的なステレオタイプやバイアスを持っている可能性があります。

推奨事項

Falcon-7B-Instructのユーザーは、防護策を開発し、本番環境での使用に際して適切な予防措置を講じることをお勧めします。

訓練の詳細

訓練データ

Falcon-7B-Instructは、2.5億個のトークンの命令/チャットデータセットの混合データでファインチューニングされています。具体的なデータソースは以下の通りです。

データソース	割合	トークン数	説明
Bai ze	65%	1.64億	チャットデータ
GPT4All	25%	6200万	命令データ
GPTeacher	5%	1100万	命令データ
RefinedWeb-English	5%	1300万	大規模なウェブクロールデータ

データはFalcon-7B/40B トークナイザーを使用してトークナイズされています。

技術仕様

モデルアーキテクチャと目標

Falcon-7Bは因果デコーダーモデルで、因果言語モデリングタスク（次のトークンの予測）で訓練されています。そのアーキテクチャは、GPT-3論文 (Brown et al., 2020) を大まかに改変したもので、以下の点が異なります。

位置埋め込み：回転埋め込み (Su et al., 2021)。
アテンション機構：マルチクエリアテンション (Shazeer et al., 2019) とFlashAttention (Dao et al., 2022)。
デコーダーブロック：単一の層正規化を持つ並列アテンション/多層パーセプトロン。

ハイパーパラメータ	値	注釈
レイヤー数	32
`d_model`	4544	マルチクエリアテンションを補償するために増やされています
`head_dim`	64	FlashAttentionを最適化するために減らされています
語彙表	65024
シーケンス長	2048

計算インフラストラクチャ

ハードウェア：Falcon-7B-InstructはAWS SageMaker上で、32個のA100 40GB GPUを搭載したP4dインスタンスを使用して訓練されました。
ソフトウェア：カスタムの分散訓練コードライブラリGigatronを使用して訓練され、3D並列手法を採用し、ZeROと高性能Tritonカーネル（FlashAttentionなど）を組み合わせています。

引用

関連する論文は近日公開予定です。

🔧 技術詳細

パフォーマンスについて

現在、AutoGPTQを使用すると、このGPTQモデルのパフォーマンスは非常に遅いです。最新のGPTQ-for-LLaMaコードではより良いパフォーマンスが得られる可能性がありますが、個人でのテストはまだ行っていません。

プロンプトテンプレート

A helpful assistant who helps the user with any questions asked.
User: prompt
Assistant:

📄 ライセンス

Falcon-7B-Instructは、TII Falcon LLMライセンスに基づいて提供されています。大まかに言えば、以下の通りです。

研究および/または個人使用のために、自由にモデルを使用できます。
これらのモデルの派生作品を共有および構築することができますが、出典を明記し、同じライセンスで共有する必要があります。
商業利用の場合、年間収入が100万ドル未満の場合はロイヤリティを支払う必要はありません。それ以上の場合は、TIIと商業契約を締結する必要があります。

その他の情報

Discord

さらなるサポートや、これらのモデルと人工知能に関する議論に参加したい場合は、TheBloke AIのDiscordサーバーに参加してください。

感謝と貢献方法

chirper.ai チームに感謝します！多くの人から貢献の方法を尋ねられています。私はモデルを提供して他人を助けることが好きで、これらのことや、ファインチューニング/訓練などの新しいプロジェクトにもっと時間を費やしたいと思っています。貢献できる能力と意欲がある方は、ぜひ貢献いただけると幸いです。これにより、私がより多くのモデルを提供し、新しい人工知能プロジェクトを開始するのに役立ちます。寄付者は、すべてのAI/大規模言語モデル/モデルに関する質問やリクエストに対して優先的なサポートを受け、プライベートなDiscordルームへのアクセスやその他の特典を受けることができます。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別な感謝：Aemon Algiz。

Patreonで特別に言及：Sam, theTransient, Jonathan Leaneなど、多くの支持者。