AceGPT-13B-chat-AWQオープンソースチャットモデル - 英語とアラビア語を無料でサポート、一般的なGPUでの高効率推論

ホーム

Acegpt 13B Chat AWQ

MohamedRashadによって開発

AceGPT 13Bチャット版のAWQ量子化バージョンで、英語とアラビア語をサポートし、一般的なGPUユーザー向けに設計され、効率的な4ビット量子化推論能力を提供します。

大規模言語モデル

Transformers

複数言語対応#アラビア語大規模モデル #4ビット量子化推論 #多言語対話

ダウンロード数 37

リリース時間 : 11/16/2023

モデル概要

AceGPT 13Bチャット版はLlama2アーキテクチャに基づく大規模言語モデルで、AWQ量子化処理を経ており、英語とアラビア語をサポートし、テキスト生成や対話タスクに適しています。

モデル特徴

効率的な量子化

AWQ量子化手法を採用し、4ビット量子化をサポートすることで、高品質を維持しながらより高速な推論を実現します。

多言語サポート

英語とアラビア語をサポートし、特にアラビア語に最適化されています。

低リソース要件

量子化されたモデルは一般的なGPUユーザーに適しており、ハードウェア要件を低減します。

モデル能力

テキスト生成

多言語対話

アラビア語テキスト処理

使用事例

言語処理

アラビア語詩生成

アラビア語の詩を生成したり、アラビア語文化に関する質問に回答したりします。

アラビア文化の背景に合致した詩や回答を生成できます。

多言語カスタマーサポート

英語とアラビア語をサポートするカスタマーサポート対話システムに使用できます。

スムーズな多言語対話体験を提供します。

🚀 AceGPT 13B Chat - AWQ

このプロジェクトは、FreedomIntelligenceのAceGPT 13B Chat のAWQモデルファイルを提供しています。簡易なGPUを持つユーザーにアラビア語の大規模言語モデルを利用可能にするため、重要な2つのモデルを量子化しました。

🚀 クイックスタート

モデル情報

プロパティ	詳細
モデル作成者	FreedomIntelligence
元のモデル	AceGPT 13B Chat
モデルタイプ	llama2
訓練データ	FreedomIntelligence/Arabic-Vicuna-80、FreedomIntelligence/Arabic-AlpacaEval、FreedomIntelligence/MMLU_Arabic、FreedomIntelligence/EXAMs、FreedomIntelligence/ACVA-Arabic-Cultural-Value-Alignment
ライセンス	llama2
量子化担当者	MohamedRashad

モデル説明

このリポジトリには、FreedomIntelligenceのAceGPT 13B Chat のAWQモデルファイルが含まれています。私は、シンプルなGPUを持つ消費者にアラビア語のLLMを利用可能にするために、2つの重要なモデルを量子化しました。

AceGPT 13B Chat AWQ (ここにいます)
AceGPT 7B Chat AWQ

AWQについて

AWQは、効率的で正確かつ非常に高速な低ビット重み量子化手法で、現在は4ビット量子化をサポートしています。GPTQと比較すると、最も一般的に使用されるGPTQ設定と同等またはそれ以上の品質で、Transformerベースの推論をより高速に提供します。

以下のものでサポートされています。

Text Generation Webui - Loader: AutoAWQを使用
vLLM - LlamaとMistralモデルのみ
Hugging Face Text Generation Inference (TGI)
Transformers バージョン4.35.0以降、Transformersをサポートする任意のコードまたはクライアントから
AutoAWQ - Pythonコードから使用するため

✨ 主な機能

アラビア語の大規模言語モデルを量子化し、簡易なGPUでの利用を可能にします。
AWQ量子化手法を使用することで、高速かつ高精度な推論を実現します。

📦 インストール

Pythonコードからの推論に必要なパッケージのインストール

必要条件: Transformers 4.35.0以降。
必要条件: AutoAWQ 0.1.6以降。

pip3 install --upgrade "autoawq>=0.1.6" "transformers>=4.35.0"

⚠️ 重要提示

PyTorch 2.0.1を使用している場合、上記のAutoAWQコマンドは自動的にPyTorch 2.1.0にアップグレードします。

💡 使用建议

CUDA 11.8を使用しており、PyTorch 2.0.1を引き続き使用したい場合は、代わりに以下のコマンドを実行してください。

pip3 install https://github.com/casper-hansen/AutoAWQ/releases/download/v0.1.6/autoawq-0.1.6+cu118-cp310-cp310-linux_x86_64.whl

AutoAWQ を事前構築済みのホイールを使用してインストールする際に問題がある場合は、ソースからインストールしてください。

pip3 uninstall -y autoawq
git clone https://github.com/casper-hansen/AutoAWQ
cd AutoAWQ
pip3 install .

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model_name_or_path = "MohamedRashad/AceGPT-13B-chat-AWQ"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, padding_side="right")
model = AutoModelForCausalLM.from_pretrained(
    model_name_or_path,
    use_flash_attention_2=True, # disable if you have problems with flash attention 2
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True,
    device_map="auto"
)

# Using the text streamer to stream output one token at a time
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

prompt = "ما أجمل بيت شعر فى اللغة العربية ؟"
prompt_template=f'''[INST] <<SYS>>\nأنت مساعد مفيد ومحترم وصادق. أجب دائما بأكبر قدر ممكن من المساعدة بينما تكون آمنا.  يجب ألا تتضمن إجاباتك أي محتوى ضار أو غير أخلاقي أو عنصري أو جنسي أو سام أو خطير أو غير قانوني. يرجى التأكد من أن ردودك غير متحيزة اجتماعيا وإيجابية بطبيعتها.\n\nإذا كان السؤال لا معنى له أو لم يكن متماسكا من الناحية الواقعية، اشرح السبب بدلا من الإجابة على شيء غير صحيح. إذا كنت لا تعرف إجابة سؤال ما، فيرجى عدم مشاركة معلومات خاطئة.\n<</SYS>>\n\n
[INST] {prompt} [/INST]
'''

# Convert prompt to tokens
tokens = tokenizer(
    prompt_template,
    return_tensors='pt'
).input_ids.cuda()

generation_params = {
    "do_sample": True,
    "temperature": 0.7,
    "top_p": 0.95,
    "top_k": 40,
    "max_new_tokens": 512,
    "repetition_penalty": 1.1
}

# Generate streamed output, visible one token at a time
generation_output = model.generate(
    tokens,
    streamer=streamer,
    **generation_params
)

# Generation without a streamer, which will include the prompt in the output
generation_output = model.generate(
    tokens,
    **generation_params
)

# Get the tokens from the output, decode them, print them
token_output = generation_output[0]
text_output = tokenizer.decode(token_output)
print("model.generate output: ", text_output)

# Inference is also possible via Transformers' pipeline
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    **generation_params
)

pipe_output = pipe(prompt_template)[0]['generated_text']
print("pipeline output: ", pipe_output)

高度な使用法

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer, AutoModelForCausalLM

model_path = "FreedomIntelligence/AceGPT-13B-chat"
quant_path = "AceGPT-13B-chat-AWQ"
quant_config = {"zero_point": True, "q_group_size": 128, "w_bit": 4, "version": "GEMM"}
load_config = {
    "low_cpu_mem_usage": True,
    "device_map": "auto",
    "trust_remote_code": True,
}
# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, **load_config)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

# Quantize
model.quantize(tokenizer, quant_config=quant_config)

# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

# Load quantized model
model = AutoModelForCausalLM.from_pretrained(quant_path)
tokenizer = AutoTokenizer.from_pretrained(quant_path)

# Push to hub
model.push_to_hub(quant_path)
tokenizer.push_to_hub(quant_path)

📚 ドキュメント

プロンプトテンプレート

[INST] <<SYS>>\nأنت مساعد مفيد ومحترم وصادق. أجب دائما بأكبر قدر ممكن من المساعدة بينما تكون آمنا.  يجب ألا تتضمن إجاباتك أي محتوى ضار أو غير أخلاقي أو عنصري أو جنسي أو سام أو خطير أو غير قانوني. يرجى التأكد من أن ردودك غير متحيزة اجتماعيا وإيجابية بطبيعتها.\n\nإذا كان السؤال لا معنى له أو لم يكن متماسكا من الناحية الواقعية، اشرح السبب بدلا من الإجابة على شيء غير صحيح. إذا كنت لا تعرف إجابة سؤال ما، فيرجى عدم مشاركة معلومات خاطئة.\n<</SYS>>\n\n
[INST] {prompt} [/INST]