PLLuM-8x7B-chat-GGUFオープンソースモデル - ローカル推論に最適，複数の量子化が異なるハードウェアに適合

ホーム

Pllum 8x7B Chat GGUF

piotrmaciejbednarskiによって開発

PLLuM-8x7B-chatのGGUF量化バージョンで、ローカル推論に最適化されており、さまざまなハードウェア要件に対応するための複数の量化レベルをサポートしています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #ポーランド語最適化 #多量化バージョン #ローカル推論

ダウンロード数 126

リリース時間 : 3/1/2025

モデル概要

これはポーランド語に最適化された8x7Bパラメータの大規模言語モデルで、対話タスク用に設計されており、さまざまなハードウェアで効率的に動作するための複数の量化バージョンを提供します。

モデル特徴

複数の量化オプション

Q2_KからF16/BF16までの複数の量化レベルを提供し、さまざまなハードウェア構成とパフォーマンス要件に対応します。

ローカル推論最適化

llama.cppと関連ツール用に特別に最適化されており、消費者向けハードウェアでの効率的な動作をサポートします。

ポーランド語最適化

ポーランド語のテキスト生成と対話タスクに対して特別に最適化されています。

ツール互換性

LM Studio、Ollamaなどの複数のツールでの動作をサポートしています。

モデル能力

ポーランド語テキスト生成

質問に回答

テキスト要約

コンテンツ作成

翻訳

概念説明

対話インタラクション

使用事例

教育

ポーランド語学習支援

学生がポーランド語の文法と語彙を理解し学習するのを支援します。

正確なポーランド語の説明と例を提供します。

コンテンツ作成

ポーランド語コンテンツ生成

ポーランド語の記事、物語またはその他の創造的なコンテンツを生成します。

流暢で文脈に合ったポーランド語のテキストを生成します。

カスタマーサービス

ポーランド語カスタマーサービスチャットボット

ポーランド語の顧客の問い合わせと問題を処理します。

正確で自然なポーランド語の対話応答を提供します。

🚀 PLLuM-8x7B-chat GGUF (非公式)

このリポジトリには、PLLuM-8x7B-chat モデルのGGUF形式の量子化バージョンが含まれています。これらのモデルは、llama.cpp や関連ツールを使用したローカル実行に最適化されています。量子化により、モデルサイズを大幅に削減しながら、生成されるテキストの品質を維持することができ、標準的なハードウェアでの実行が可能になります。

このリポジトリは、参照 (F16) および (BF16) バージョン、さらには (IQ3_S) 量子化のPLLuM-8x7B-chatモデルを含む唯一のリポジトリです。

GGUFバージョンは、LM Studio や Ollama などで実行することができます。

✨ 主な機能

ポーランド語のテキスト生成
質問応答
テキスト要約
コンテンツ作成
翻訳
概念説明
会話

📦 インストール

huggingface-cliを使用したモデルのダウンロード

ダウンロード手順を表示するにはクリック

まず、huggingface-cliツールがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

小さいモデルのダウンロード

50GB未満の特定のモデル（例：q4_k_m）をダウンロードするには、次のコマンドを実行します。

huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q4_k_m.gguf" --local-dir ./

ファイル名を変更することで、他の量子化バージョンをダウンロードすることもできます。

# q3_k_mバージョン（22.5 GB）の場合
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q3_k_m.gguf" --local-dir ./

# iq3_sバージョン（20.4 GB）の場合
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-iq3_s.gguf" --local-dir ./

# q5_k_mバージョン（33.2 GB）の場合
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q5_k_m.gguf" --local-dir ./

大きいモデル（分割されたファイル）のダウンロード

F16やbf16などの大きいモデルの場合、ファイルは小さなパーツに分割されています。すべてのパーツをローカルフォルダにダウンロードするには、次のコマンドを使用します。

# F16バージョン（約85 GB）の場合
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-F16/*" --local-dir ./F16/

# bf16バージョン（約85 GB）の場合
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-bf16/*" --local-dir ./bf16/

hf_transferを使用した高速ダウンロード

ダウンロード速度を大幅に向上させる（最大1GB/s）には、hf_transferライブラリを使用することができます。

# hf_transferをインストール
pip install hf_transfer

# hf_transferを有効にしてダウンロード（はるかに高速）
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q4_k_m.gguf" --local-dir ./

ダウンロード後の分割ファイルの結合

分割されたモデルをダウンロードした場合、次のコマンドを使用してファイルを結合することができます。

# Linux/Macシステムの場合
cat PLLuM-8x7B-chat-gguf-F16.part-* > PLLuM-8x7B-chat-gguf-F16.gguf

# Windowsシステムの場合
copy /b PLLuM-8x7B-chat-gguf-F16.part-* PLLuM-8x7B-chat-gguf-F16.gguf

💻 使用例

llama.cppを使用する場合

これらの例では、非公式リポジトリのPLLuMモデルを使用します。上記の利用可能なモデルの表から好みの量子化バージョンをダウンロードすることができます。

ダウンロードしたら、モデルを models ディレクトリに配置します。

Unixベースのシステム（Linux、macOSなど）：

入力プロンプト（ワンタイム）

./llama-cli -m models/PLLuM-8x7B-chat-gguf-q4_k_m.gguf --prompt "Pytanie: Jakie są największe miasta w Polsce? Odpowiedź:"

Windows：

入力プロンプト（ワンタイム）

./llama-cli.exe -m models\PLLuM-8x7B-chat-gguf-q4_k_m.gguf --prompt "Pytanie: Jakie są największe miasta w Polsce? Odpowiedź:"

詳細で最新の情報については、公式の llama.cppドキュメントを参照してください。

text-generation-webuiを使用する場合

# text-generation-webuiをインストール
git clone https://github.com/oobabooga/text-generation-webui.git
cd text-generation-webui
pip install -r requirements.txt

# 選択したモデルでサーバーを起動
python server.py --model path/to/PLLuM-8x7B-chat-gguf-q4_k_m.gguf

pythonとllama-cpp-pythonを使用する場合

from llama_cpp import Llama

# モデルをロード
llm = Llama(
    model_path="path/to/PLLuM-8x7B-chat-gguf-q4_k_m.gguf",
    n_ctx=4096,     # コンテキストサイズ
    n_threads=8,    # CPUスレッド数
    n_batch=512     # バッチサイズ
)

# 使用例
prompt = "Pytanie: Jakie są najciekawsze zabytki w Krakowie? Odpowiedź:"
output = llm(
    prompt,
    max_tokens=512,
    temperature=0.7,
    top_p=0.95
)

print(output["choices"][0]["text"])

📚 詳細ドキュメント

利用可能なモデル

ファイル名	サイズ	量子化タイプ	推奨ハードウェア	用途
PLLuM-8x7B-chat-gguf-q2_k.gguf	17 GB	Q2_K	CPU、最小20 GB RAM	非常に弱いコンピュータ、最悪の品質
PLLuM-8x7B-chat-gguf-iq3_s.gguf	20.4 GB	IQ3_S	CPU、最小24GB RAM	許容可能な品質で弱いコンピュータでの実行
PLLuM-8x7B-chat-gguf-q3_k_m.gguf	22.5 GB	Q3_K_M	CPU、最小26GB RAM	サイズと品質のバランスが良い
PLLuM-8x7B-chat-gguf-q4_k_m.gguf	28.4 GB	Q4_K_M	CPU/GPU、最小32GB RAM	ほとんどのアプリケーションに推奨
PLLuM-8x7B-chat-gguf-q5_k_m.gguf	33.2 GB	Q5_K_M	CPU/GPU、最小40GB RAM	適切なサイズで高品質
PLLuM-8x7B-chat-gguf-q8_0.gguf	49.6 GB	Q8_0	GPU、最小52GB RAM	元のモデルに近い最高品質
PLLuM-8x7B-chat-gguf-F16	~85 GB	F16	GPU、最小85GB VRAM	量子化なしの参照モデル
PLLuM-8x7B-chat-gguf-bf16	~85 GB	BF16	GPU、最小85GB VRAM	代替の完全精度形式

量子化とは？

量子化は、モデルの重みの精度を下げるプロセスで、メモリ要件を減らしながら、生成されるテキストの許容可能な品質を維持します。GGUF (GPT-Generated Unified Format) 形式は、GGML形式の後継であり、コンシューマハードウェアで大規模言語モデルを効率的に実行することができます。