Llama-3.2-11B-Vision-Instruct-FP8-dynamicオープンソースモデル - 多言語対応、商用チャットアシスタントに適しています

ホーム

Llama 3.2 11B Vision Instruct FP8 Dynamic

RedHatAIによって開発

これはLlama-3.2-11B-Vision-Instructをベースにした量子化モデルで、多言語の商業および研究用途に適しており、アシスタントのようなチャットシーンに使用できます。

画像生成テキスト

Safetensors

複数言語対応#FP8量子化 #マルチモーダルアシスタント #商業研究汎用

ダウンロード数 2,295

リリース時間 : 9/25/2024

モデル概要

このモデルはFP8の重み量子化と活性化量子化によって最適化されており、多言語の商業および研究用途に適しており、特にアシスタントのようなチャットアプリに適しています。

モデル特徴

FP8量子化

FP8を使用して重みと活性化を量子化し、ディスク容量とGPUメモリの要件を約50％削減します。

マルチモーダルサポート

テキストと画像の入力をサポートし、マルチモーダルタスクを処理できます。

高効率推論

vLLMバックエンドを使用して高効率なデプロイを行い、高速な推論をサポートします。

モデル能力

テキスト生成

画像理解

マルチモーダルインタラクション

使用事例

アシスタントアプリケーション

画像説明生成

入力された画像に基づいて説明的なテキストまたは詩を生成します。

画像内容に合った自然言語の説明を生成できます。

マルチモーダルチャット

画像とテキストの入力を組み合わせて対話型の会話を行います。

画像内容を組み合わせた会話を理解して応答できます。

🚀 Llama-3.2-11B-Vision-Instruct-FP8-dynamic

このモデルは、多言語での商用および研究用途を目的とした、Llama-3.2-11B-Vision-Instruct の量子化バージョンです。アシスタントのようなチャットに使用できます。

🚀 クイックスタート

このモデルは、多言語の商用および研究用途に適しています。下記のセクションで、モデルの概要、最適化、デプロイ方法、作成方法などを説明します。

✨ 主な機能

多言語対応：英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語などの複数の言語に対応しています。
画像とテキストの入力：テキストと画像を入力として受け取り、テキストを出力します。
量子化最適化：重みと活性化関数をFP8データ型に量子化することで、ディスクサイズとGPUメモリ要件を約50%削減します。

📦 インストール

このモデルを使用するには、vLLM をインストールする必要があります。

💻 使用例

基本的な使用法

from vllm import LLM, SamplingParams
from vllm.assets.image import ImageAsset

# Initialize the LLM
model_name = "neuralmagic/Llama-3.2-11B-Vision-Instruct-FP8-dynamic"
llm = LLM(model=model_name, max_num_seqs=1, enforce_eager=True)

# Load the image
image = ImageAsset("cherry_blossom").pil_image.convert("RGB")

# Create the prompt
question = "If I had to write a haiku for this one, it would be: "
prompt = f"<|image|><|begin_of_text|>{question}"

# Set up sampling parameters
sampling_params = SamplingParams(temperature=0.2, max_tokens=30)

# Generate the response
inputs = {
    "prompt": prompt,
    "multi_modal_data": {
        "image": image
    },
}
outputs = llm.generate(inputs, sampling_params=sampling_params)

# Print the generated text
print(outputs[0].outputs[0].text)

高度な使用法

vllm serve neuralmagic/Llama-3.2-11B-Vision-Instruct-FP8-dynamic --enforce-eager --max-num-seqs 16

📚 ドキュメント

モデル概要

モデルアーキテクチャ：Meta-Llama-3.2
- 入力：テキスト/画像
- 出力：テキスト
モデル最適化：
- 重み量子化：FP8
- 活性化量子化：FP8
想定使用ケース：複数の言語での商用および研究用途を想定しています。Llama-3.2-11B-Vision-Instruct と同様に、アシスタントのようなチャットに使用できます。
範囲外の使用：適用される法律や規制（貿易コンプライアンス法を含む）に違反する方法での使用。英語以外の言語での使用。
リリース日：2024年9月25日
バージョン：1.0
ライセンス：llama3.2
モデル開発者：Neural Magic

モデル最適化

このモデルは、Llama-3.2-11B-Vision-Instruct の重みと活性化関数をFP8データ型に量子化することで得られました。この最適化により、パラメータごとのビット数が16から8に減少し、ディスクサイズとGPUメモリ要件が約50%削減されます。

トランスフォーマーブロック内の線形演算子の重みと活性化関数のみが量子化されます。対称的なチャネルごとの量子化が適用され、出力次元ごとの線形スケーリングによって、量子化された重みと活性化関数のFP8表現がマッピングされます。活性化関数は、トークンごとに動的に量子化されます。 LLM Compressor が量子化に使用されています。

デプロイ

vLLMを使用したデプロイ

このモデルは、vLLM バックエンドを使用して効率的にデプロイできます。

作成

このモデルは、LLM Compressor を適用することで作成されました。

from transformers import AutoProcessor, MllamaForConditionalGeneration

from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor.transformers import oneshot, wrap_hf_model_class

MODEL_ID = "meta-llama/Llama-3.2-11B-Vision-Instruct"

# Load model.
model_class = wrap_hf_model_class(MllamaForConditionalGeneration)
model = model_class.from_pretrained(MODEL_ID, device_map="auto", torch_dtype="auto")
processor = AutoProcessor.from_pretrained(MODEL_ID)

# Configure the quantization algorithm and scheme.
# In this case, we:
#   * quantize the weights to fp8 with per channel via ptq
#   * quantize the activations to fp8 with dynamic per token
recipe = QuantizationModifier(
    targets="Linear",
    scheme="FP8_DYNAMIC",
    ignore=["re:.*lm_head", "re:multi_modal_projector.*", "re:vision_model.*"],
)

# Apply quantization and save to disk in compressed-tensors format.
SAVE_DIR = MODEL_ID.split("/")[1] + "-FP8-Dynamic"
oneshot(model=model, recipe=recipe, output_dir=SAVE_DIR)
processor.save_pretrained(SAVE_DIR)

# Confirm generations of the quantized model look sane.
print("========== SAMPLE GENERATION ==============")
input_ids = processor(text="Hello my name is", return_tensors="pt").input_ids.to("cuda")
output = model.generate(input_ids, max_new_tokens=20)
print(processor.decode(output[0]))
print("==========================================")