Bielik-4.5B-v3.0-Instruct-FP8-Dynamicオープンソースモデル - メモリ要件の削減、ディスクスペースの節約

ホーム

Bielik 4.5B V3.0 Instruct FP8 Dynamic

speakleashによって開発

このモデルはBielik-4.5B-v3.0-InstructのFP8量子化バージョンで、AutoFP8技術により重みと活性化をFP8データ型に量子化し、ディスク容量とGPUメモリ要件を約50%削減します。

大規模言語モデルその他オープンソースライセンス:Apache-2.0 #ポーランド語生成 #FP8量子化 #命令微調整

ダウンロード数 74

リリース時間 : 5/4/2025

モデル概要

ポーランド語大規模言語モデル、Bielik-4.5B-v3.0-Instructを基にFP8量子化を施し、テキスト生成タスクに適しています。

モデル特徴

FP8量子化

AutoFP8技術を使用して重みと活性化をFP8データ型に量子化し、モデルサイズとメモリ要件を大幅に削減します。

効率的な推論

vLLM >= 0.5.0またはSGLangを使用した効率的な推論をサポートします。

ポーランド語最適化

ポーランド語に特化して最適化されており、ポーランド語テキスト生成タスクに適しています。

モデル能力

ポーランド語テキスト生成

命令追従

使用事例

教育

ポーランドの歴史人物紹介

ニコラウス・コペルニクスなどのポーランドの歴史人物に関する詳細な説明を生成します。

カスタマーサポート

ポーランド語カスタマーサポートアシスタント

ポーランド語のカスタマーサポートアシスタントとして、ユーザーの質問に答えます。

🚀 Bielik-4.5B-v3.0-Instruct-FP8-Dynamic

このモデルは、Bielik-4.5B-v3.0-Instruct の重みとアクティベーションをFP8データ型に量子化することで得られました。vLLM >= 0.5.0 またはSGLangでの推論に対応しています。量子化にはAutoFP8が使用されています。この最適化により、パラメータあたりのビット数が16から8に減少し、ディスクサイズとGPUメモリ要件が約50％削減されます。トランスフォーマーブロック内の線形演算子の重みとアクティベーションのみが量子化されています。対称的なパーテンソル量子化が適用されており、単一の線形スケーリングによって量子化された重みとアクティベーションのFP8表現がマッピングされます。

🔗 技術レポート: https://arxiv.org/abs/2505.02550

FP8計算は、コンピュートキャパビリティが8.9を超えるNvidia GPU（Ada Lovelace、Hopper）でサポートされています。

⚠️ 重要提示

量子化されたモデルは応答品質が低下し、幻覚現象が発生する可能性があることに注意してください！

🚀 クイックスタート

✨ 主な機能

このモデルは、Bielik-4.5B-v3.0-Instruct の重みとアクティベーションをFP8データ型に量子化したものです。
AutoFP8を使用した量子化により、ディスクサイズとGPUメモリ要件を約50％削減します。
vLLM >= 0.5.0 またはSGLangでの推論に対応しています。

📦 インストール

本モデルは、vLLMやSGLangを用いて推論を行うことができます。以下に、それぞれの使用方法を示します。

💻 使用例

vLLMでの使用

このモデルは、vLLM バックエンドを使用して効率的にデプロイできます。以下はその例です。

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "speakleash/Bielik-4.5B-v3.0-Instruct-FP8-Dynamic"

sampling_params = SamplingParams(temperature=0.2, top_p=0.95, max_tokens=4096)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
    {"role": "user", "content": "Kim by≈Ç Miko≈Çaj Kopernik i z czego zas≈ÇynƒÖ≈Ç?"},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id, max_model_len=4096)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLMはOpenAI互換のサービングもサポートしています。詳細についてはドキュメントを参照してください。

SGLang Runtimeでの使用

SGLang Runtimeのサーバーを起動します。

python -m sglang.launch_server --model-path speakleash/Bielik-4.5B-v3.0-Instruct-FP8-Dynamic --port 30000

その後、HTTPリクエストを送信するか、OpenAI互換APIを使用することができます。

import openai
client = openai.Client(
    base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="default",
    messages=[
        {"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
        {"role": "user", "content": "Kim by≈Ç Miko≈Çaj Kopernik i z czego zas≈ÇynƒÖ≈Ç?"},
    ],
    temperature=0,
    max_tokens=4096,
)
print(response)

📚 ドキュメント

モデルの説明

属性	详情
開発者	SpeakLeash & ACK Cyfronet AGH
言語	ポーランド語
モデルタイプ	因果的なデコーダー専用
量子化元	Bielik-4.5B-v3.0-Instruct
ファインチューニング元	Bielik-4.5B-v3
ライセンス	Apache 2.0 および利用規約