モデル概要
モデル特徴
モデル能力
使用事例
🚀 Falcon-7B-Instruct GPTQ
このリポジトリには、Falcon-7B-Instruct 用の実験的なGPTQ 4ビットモデルが含まれています。これは、AutoGPTQ を使用して4ビット量子化された結果です。
プロジェクトのヘッダー情報

TheBlokeの大規模言語モデルに関する作業は、andreessen horowitz (a16z) からの慷慨な資金提供を受けています。
🚀 クイックスタート
このプロジェクトでは、Falcon-7B-InstructのGPTQ 4ビット量子化モデルを提供しています。以下では、このモデルのダウンロードと使用方法を説明します。
✨ 主な機能
- このモデルは、AutoGPTQツールを使用してFalcon-7B-Instructを4ビット量子化したものです。
- このモデルは、最新のGPTQ-for-LLaMaコードでより良いパフォーマンスを発揮する可能性があります。
- ユーザーがすぐに使い始められるように、簡単なPythonのサンプルコードを提供しています。
📦 インストール
AutoGPTQのインストール
AutoGPTQは必須の依存ライブラリです。以下のコマンドを使用してインストールできます。
GITHUB_ACTIONS=true pip install auto-gptq
AutoGPTQはWindowsとLinux用の事前コンパイル済みのホイールを提供しており、CUDAツールキット11.7または11.8が必要です。CUDAツールキット12.xを使用している場合は、以下の手順で手動でコンパイルする必要があります。
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip install .
手動でのコンパイルには、Nvidia CUDAツールキット のインストールが必要です。
Pythonサンプルコードを実行するための依存関係
サンプルコードを実行するには、einopsもインストールする必要があります。
pip install einops
💻 使用例
基本的な使用法
text-generation-webuiでこのモデルをダウンロードして使用する手順は次の通りです。
- text-generation-webuiを起動します。
- モデル タブをクリックします。
- 自動でモデルをロードする のチェックを外します。
- カスタムモデルまたはLoRAをダウンロードする の下に、
TheBloke/falcon-7B-instruct-GPTQ
を入力します。 - ダウンロード をクリックします。
- ダウンロードが完了するのを待ちます。
- 左上の モデル の横にある 更新 アイコンをクリックします。
- モデルのドロップダウンボックス で、先ほどダウンロードしたモデル
falcon-7B-instruct-GPTQ
を選択します。 - ローダー を AutoGPTQ に設定します。このモデルはExLlamaには適さず、最新のGPTQ-for-LLaMaで動作する可能性がありますが、テストされていません。
- リモートコードを信頼する にチェックを入れ、設定を保存 をクリックします。
- 再読み込み をクリックします。
- モデルがロードされたことが表示されたら、テキスト生成 タブをクリックしてプロンプトを入力します!
高度な使用法
以下は、このモデルを使用してテキスト生成を行う簡単なPythonのサンプルコードです。
from transformers import AutoTokenizer, pipeline, logging
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
import argparse
model_name_or_path = "TheBloke/falcon-7b-instruct-GPTQ"
# モデルをローカルにダウンロードしてアクセスすることもできます
# model_name_or_path = "/path/to/TheBloke_falcon-7b-instruct-GPTQ"
model_basename = "model"
use_triton = False
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
model_basename=model_basename,
use_safetensors=True,
trust_remote_code=True,
device="cuda:0",
use_triton=use_triton,
quantize_config=None)
prompt = "Tell me about AI"
prompt_template=f'''A helpful assistant who helps the user with any questions asked.
User: {prompt}
Assistant:'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# transformersのpipelineを使用して推論を行うこともできます
# 注意: pipelineを使用すると、モデルタイプがサポートされていないという誤ったエラーメッセージが表示されます
# このメッセージは無視してください!または、以下のログ記録行を使用して非表示にすることができます
# pipelineとAutoGPTQを使用する際に誤ったtransformersエラーが表示されないようにする
logging.set_verbosity(logging.CRITICAL)
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
temperature=0.7,
top_p=0.95,
repetition_penalty=1.15
)
print(pipe(prompt_template)[0]['generated_text'])
📚 ドキュメント
trust_remote_code
について
このコマンドライン引数により、Falconが提供するPythonコードがあなたのマシン上で実行されます。現在、Falconが新しすぎてHugging Face transformersがサポートしていないため、このコードが必要です。将来的には、transformersがこのモデルをネイティブにサポートするようになり、trust_remote_code
は不要になります。このリポジトリには2つの .py
ファイルがあり、これらが実行されるファイルで、Falcon-7B-Instruct のベースリポジトリからコピーされたものです。
提供されるファイル
gptq_model-4bit-64g.safetensors
このファイルはAutoGPTQ 0.2.0以降に対応しています。推論品質を向上させるためにグループサイズ64を使用し、推論速度を向上させるために desc_act
(アクティベーション順序)を使用していません。
gptq_model-4bit-64g.safetensors
- AutoGPTQ CUDA 0.2.0以降に対応しています。現在、AutoGPTQ Tritonには対応していませんが、将来的にサポートが追加される見込みです。
- text-generation-webuiで
--trust-remote-code
を使用してロードできます。 - どのバージョンのGPTQ-for-LLaMaにも対応していません。
- パラメータ:グループサイズ = 64、アクティベーション順序なし。
元のモデル情報
モデルの詳細
属性 | 詳細 |
---|---|
開発元 | https://www.tii.ae |
モデルタイプ | 因果デコーダー |
言語 | 英語とフランス語 |
ライセンス | TII Falcon LLMライセンス |
ファインチューニングのベースモデル | Falcon-7B |
用途
- 直接使用:Falcon-7B-Instructは、命令とチャットデータセットの混合データでファインチューニングされています。
- 範囲外の使用:十分なリスク評価と緩和策がない状態での本番環境での使用;責任がないまたは有害と見なされる可能性のある使用シナリオ。
バイアス、リスク、制限事項
Falcon-7B-Instructは主に英語のデータで訓練されているため、他の言語にうまく汎化できない可能性があります。また、大規模なウェブコーパスで訓練されているため、ウェブ上で一般的なステレオタイプやバイアスを持っている可能性があります。
推奨事項
Falcon-7B-Instructのユーザーは、防護策を開発し、本番環境での使用に際して適切な予防措置を講じることをお勧めします。
訓練の詳細
訓練データ
Falcon-7B-Instructは、2.5億個のトークンの命令/チャットデータセットの混合データでファインチューニングされています。具体的なデータソースは以下の通りです。
データソース | 割合 | トークン数 | 説明 |
---|---|---|---|
Bai ze | 65% | 1.64億 | チャットデータ |
GPT4All | 25% | 6200万 | 命令データ |
GPTeacher | 5% | 1100万 | 命令データ |
RefinedWeb-English | 5% | 1300万 | 大規模なウェブクロールデータ |
データはFalcon-7B/40B トークナイザーを使用してトークナイズされています。
技術仕様
モデルアーキテクチャと目標
Falcon-7Bは因果デコーダーモデルで、因果言語モデリングタスク(次のトークンの予測)で訓練されています。そのアーキテクチャは、GPT-3論文 (Brown et al., 2020) を大まかに改変したもので、以下の点が異なります。
- 位置埋め込み:回転埋め込み (Su et al., 2021)。
- アテンション機構:マルチクエリアテンション (Shazeer et al., 2019) とFlashAttention (Dao et al., 2022)。
- デコーダーブロック:単一の層正規化を持つ並列アテンション/多層パーセプトロン。
ハイパーパラメータ | 値 | 注釈 |
---|---|---|
レイヤー数 | 32 | |
d_model |
4544 | マルチクエリアテンションを補償するために増やされています |
head_dim |
64 | FlashAttentionを最適化するために減らされています |
語彙表 | 65024 | |
シーケンス長 | 2048 |
計算インフラストラクチャ
- ハードウェア:Falcon-7B-InstructはAWS SageMaker上で、32個のA100 40GB GPUを搭載したP4dインスタンスを使用して訓練されました。
- ソフトウェア:カスタムの分散訓練コードライブラリGigatronを使用して訓練され、3D並列手法を採用し、ZeROと高性能Tritonカーネル(FlashAttentionなど)を組み合わせています。
引用
関連する論文は近日公開予定です。
🔧 技術詳細
パフォーマンスについて
現在、AutoGPTQを使用すると、このGPTQモデルのパフォーマンスは非常に遅いです。最新のGPTQ-for-LLaMaコードではより良いパフォーマンスが得られる可能性がありますが、個人でのテストはまだ行っていません。
プロンプトテンプレート
A helpful assistant who helps the user with any questions asked.
User: prompt
Assistant:
📄 ライセンス
Falcon-7B-Instructは、TII Falcon LLMライセンス に基づいて提供されています。大まかに言えば、以下の通りです。
- 研究および/または個人使用のために、自由にモデルを使用できます。
- これらのモデルの派生作品を共有および構築することができますが、出典を明記し、同じライセンスで共有する必要があります。
- 商業利用の場合、年間収入が100万ドル未満の場合はロイヤリティを支払う必要はありません。それ以上の場合は、TIIと商業契約を締結する必要があります。
その他の情報
Discord
さらなるサポートや、これらのモデルと人工知能に関する議論に参加したい場合は、TheBloke AIのDiscordサーバー に参加してください。
感謝と貢献方法
chirper.ai チームに感謝します!多くの人から貢献の方法を尋ねられています。私はモデルを提供して他人を助けることが好きで、これらのことや、ファインチューニング/訓練などの新しいプロジェクトにもっと時間を費やしたいと思っています。貢献できる能力と意欲がある方は、ぜひ貢献いただけると幸いです。これにより、私がより多くのモデルを提供し、新しい人工知能プロジェクトを開始するのに役立ちます。寄付者は、すべてのAI/大規模言語モデル/モデルに関する質問やリクエストに対して優先的なサポートを受け、プライベートなDiscordルームへのアクセスやその他の特典を受けることができます。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別な感謝:Aemon Algiz。
Patreonで特別に言及:Sam, theTransient, Jonathan Leaneなど、多くの支持者。
連絡先
何か質問がある場合は、メールアドレス falconllm@tii.ae までお問い合わせください。



