Bielik-1.5B-v3.0-Instruct-FP8-Dynamicオープンソースモデル - ディスクとビデオメモリの要件を削減し、推論フレームワークに適合させる

Bielik 1.5B V3.0 Instruct FP8 Dynamic

speakleashによって開発

これはBielik-1.5B-v3.0-Instructモデルを基にしたFP8動的量子化バージョンで、vLLMまたはSGLang推論フレームワークに適応しています。AutoFP8量子化技術により、パラメータのビット数を16ビットから8ビットに削減し、ディスク容量とGPUメモリ要件を大幅に削減しました。

大規模言語モデルその他オープンソースライセンス:Apache-2.0 #ポーランド語生成 #FP8量子化 #命令微調整

ダウンロード数 31

リリース時間 : 5/4/2025

モデル概要

このモデルはBielik-1.5B-v3.0-Instructの重みと活性化値をFP8データ型で量子化したバージョンで、主にポーランド語テキスト生成タスクに使用されます。

モデル特徴

FP8動的量子化

AutoFP8量子化技術を採用し、パラメータのビット数を16ビットから8ビットに削減、ディスク容量とGPUメモリ要件を約50%削減

効率的な推論

vLLM >= 0.5.0またはSGLang推論フレームワークに適応し、推論効率を最適化

ポーランド語最適化

ポーランド語テキスト生成タスクに特化して最適化

モデル能力

ポーランド語テキスト生成

命令追従

使用事例

インテリジェントアシスタント

ポーランド語Q&Aシステム

ポーランド語インテリジェントQ&Aアシスタント構築に使用

🚀 Bielik-1.5B-v3.0-Instruct-FP8-Dynamic

このモデルは、Bielik-1.5B-v3.0-Instruct の重みと活性化関数をFP8データ型に量子化したもので、vLLM >= 0.5.0またはSGLangでの推論に対応しています。量子化にはAutoFP8が使用されています。この最適化により、パラメータごとのビット数が16から8に減少し、ディスクサイズとGPUメモリ要件が約50%削減されます。量子化は、トランスフォーマーブロック内の線形演算子の重みと活性化関数のみに適用されます。対称的なパーテンソル量子化が適用され、単一の線形スケーリングが量子化された重みと活性化関数のFP8表現をマッピングします。

üìö 技術レポート: https://arxiv.org/abs/2505.02550

FP8計算は、コンピューティングキャパビリティが8.9を超えるNvidia GPU（Ada Lovelace、Hopper）でサポートされています。

⚠️ 重要注意

量子化されたモデルは応答品質が低下し、幻覚現象が発生する可能性があります！

🚀 クイックスタート

✨ 主な機能

このモデルは、重みと活性化関数をFP8データ型に量子化することで、ディスクサイズとGPUメモリ要件を削減し、vLLMやSGLangでの効率的な推論を可能にします。

📦 インストール

本READMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

vLLMを使用する場合

このモデルは、vLLM バックエンドを使用して効率的にデプロイできます。以下の例を参照してください。

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic"

sampling_params = SamplingParams(temperature=0.2, top_p=0.95, max_tokens=4096)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
    {"role": "user", "content": "Kim by≈Ç Miko≈Çaj Kopernik i z czego zas≈ÇynƒÖ≈Ç?"},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id, max_model_len=4096)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLMはOpenAI互換のサービングもサポートしています。詳細については、ドキュメントを参照してください。

SGLang Runtimeを使用する場合

SGLang Runtimeのサーバーを起動します。

python -m sglang.launch_server --model-path speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic --port 30000

その後、HTTPリクエストを送信するか、OpenAI互換APIを使用することができます。

import openai
client = openai.Client(
    base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="default",
    messages=[
        {"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
        {"role": "user", "content": "Kim by≈Ç Miko≈Çaj Kopernik i z czego zas≈ÇynƒÖ≈Ç?"},
    ],
    temperature=0,
    max_tokens=4096,
)
print(response)

📚 ドキュメント

モデルの説明

属性	详情
開発元	SpeakLeash & ACK Cyfronet AGH
言語	ポーランド語
モデルタイプ	因果的デコーダーのみ
量子化元	Bielik-1.5B-v3.0-Instruct
ファインチューニング元	Bielik-1.5B-v3
ライセンス	Apache 2.0および利用規約

モデル量子化の担当者

Remigiusz Kinas^SpeakLeash - チームリーダーシップ、概念化、キャリブレーションデータの準備、プロセスの作成、量子化モデルの配信

🔧 技術詳細

このモデルは、重みと活性化関数をFP8データ型に量子化することで最適化されています。量子化にはAutoFP8が使用され、対称的なパーテンソル量子化が適用されます。これにより、パラメータごとのビット数が16から8に減少し、ディスクサイズとGPUメモリ要件が約50%削減されます。量子化は、トランスフォーマーブロック内の線形演算子の重みと活性化関数のみに適用されます。