🚀 PLLuM-8x7B-chat GGUF (非公式)
このリポジトリには、PLLuM-8x7B-chat モデルのGGUF形式の量子化バージョンが含まれています。これらのモデルは、llama.cpp や関連ツールを使用したローカル実行に最適化されています。量子化により、モデルサイズを大幅に削減しながら、生成されるテキストの品質を維持することができ、標準的なハードウェアでの実行が可能になります。
このリポジトリは、参照 (F16) および (BF16) バージョン、さらには (IQ3_S) 量子化のPLLuM-8x7B-chatモデルを含む唯一のリポジトリです。
GGUFバージョンは、LM Studio や Ollama などで実行することができます。
✨ 主な機能
- ポーランド語のテキスト生成
- 質問応答
- テキスト要約
- コンテンツ作成
- 翻訳
- 概念説明
- 会話
📦 インストール
huggingface-cliを使用したモデルのダウンロード
ダウンロード手順を表示するにはクリック
まず、huggingface-cliツールがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
小さいモデルのダウンロード
50GB未満の特定のモデル(例:q4_k_m)をダウンロードするには、次のコマンドを実行します。
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q4_k_m.gguf" --local-dir ./
ファイル名を変更することで、他の量子化バージョンをダウンロードすることもできます。
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q3_k_m.gguf" --local-dir ./
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-iq3_s.gguf" --local-dir ./
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q5_k_m.gguf" --local-dir ./
大きいモデル(分割されたファイル)のダウンロード
F16やbf16などの大きいモデルの場合、ファイルは小さなパーツに分割されています。すべてのパーツをローカルフォルダにダウンロードするには、次のコマンドを使用します。
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-F16/*" --local-dir ./F16/
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-bf16/*" --local-dir ./bf16/
hf_transferを使用した高速ダウンロード
ダウンロード速度を大幅に向上させる(最大1GB/s)には、hf_transferライブラリを使用することができます。
pip install hf_transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q4_k_m.gguf" --local-dir ./
ダウンロード後の分割ファイルの結合
分割されたモデルをダウンロードした場合、次のコマンドを使用してファイルを結合することができます。
cat PLLuM-8x7B-chat-gguf-F16.part-* > PLLuM-8x7B-chat-gguf-F16.gguf
copy /b PLLuM-8x7B-chat-gguf-F16.part-* PLLuM-8x7B-chat-gguf-F16.gguf
💻 使用例
llama.cppを使用する場合
これらの例では、非公式リポジトリのPLLuMモデルを使用します。上記の利用可能なモデルの表から好みの量子化バージョンをダウンロードすることができます。
ダウンロードしたら、モデルを models
ディレクトリに配置します。
Unixベースのシステム(Linux、macOSなど):
入力プロンプト(ワンタイム)
./llama-cli -m models/PLLuM-8x7B-chat-gguf-q4_k_m.gguf --prompt "Pytanie: Jakie są największe miasta w Polsce? Odpowiedź:"
Windows:
入力プロンプト(ワンタイム)
./llama-cli.exe -m models\PLLuM-8x7B-chat-gguf-q4_k_m.gguf --prompt "Pytanie: Jakie są największe miasta w Polsce? Odpowiedź:"
詳細で最新の情報については、公式の llama.cppドキュメント を参照してください。
text-generation-webuiを使用する場合
git clone https://github.com/oobabooga/text-generation-webui.git
cd text-generation-webui
pip install -r requirements.txt
python server.py --model path/to/PLLuM-8x7B-chat-gguf-q4_k_m.gguf
pythonとllama-cpp-pythonを使用する場合
from llama_cpp import Llama
llm = Llama(
model_path="path/to/PLLuM-8x7B-chat-gguf-q4_k_m.gguf",
n_ctx=4096,
n_threads=8,
n_batch=512
)
prompt = "Pytanie: Jakie są najciekawsze zabytki w Krakowie? Odpowiedź:"
output = llm(
prompt,
max_tokens=512,
temperature=0.7,
top_p=0.95
)
print(output["choices"][0]["text"])
📚 詳細ドキュメント
利用可能なモデル
量子化とは?
量子化は、モデルの重みの精度を下げるプロセスで、メモリ要件を減らしながら、生成されるテキストの許容可能な品質を維持します。GGUF (GPT-Generated Unified Format) 形式は、GGML形式の後継であり、コンシューマハードウェアで大規模言語モデルを効率的に実行することができます。
どのモデルを選ぶべきか?
- Q2_K、IQ3_SおよびQ3_K_M:モデルの最小バージョンで、メモリ節約が優先される場合に最適
- Q4_K_M:ほとんどのアプリケーションに推奨 - 品質とサイズのバランスが良い
- Q5_K_M:より良い品質を重視し、適切なメモリ量がある場合に選択
- Q8_0:GPUでの最高品質、元のモデルに比べて品質の低下が最小
- F16/BF16:完全精度、量子化なしの参照バージョン
🔧 技術詳細
PLLuM (Polish Large Language Model) は、ポーランドのデジタル庁によって開発された高度なポーランド語モデルのファミリーです。このモデルのバージョン (8x7B-chat) は、会話 (チャット) 用に最適化されています。
📄 ライセンス
基本のPLLuM 8x7B-chatモデルは、Apache License 2.0 の下で配布されています。量子化バージョンも同じライセンスの対象となります。
作者
このリポジトリと量子化の作者は Piotr Bednarski です。