百度ERNIE-4.5-0.3B-PT-GGUFオープンソースモデル - 最適化後はサイズを縮小、実行効率を向上

ホーム

Baidu ERNIE 4.5 0.3B PT GGUF

bartowskiによって開発

百度ERNIE-4.5-0.3B-PTモデルに基づく量子化バージョンで、llama.cppツールを通じて最適化され、モデルサイズを削減し、実行効率を向上させます。

大規模言語モデル複数言語対応オープンソースライセンス:Apache-2.0 #高効率量子化 #軽量級推論 #多プラットフォーム互換

ダウンロード数 314

リリース時間 : 6/30/2025

モデル概要

このプロジェクトは、百度ERNIE-4.5-0.3B-PTモデルの複数の量子化バージョンを提供し、異なる性能と品質の要件に適しており、LM Studioやllama.cppなどの環境での実行をサポートしています。

モデル特徴

高効率量子化

llama.cppを使用して量子化を行い、モデルサイズを削減し、実行効率を向上させます。

複数の量子化タイプ

Q2_KからQ8_0までの複数の量子化タイプを提供し、異なる性能と品質の要件を満たします。

広範な互換性

LM Studioやllama.cppなどの環境での実行をサポートし、互換性が高いです。

オンライン再パッケージ化

オンラインでの重みの再パッケージ化をサポートし、ARMとAVXマシンでの性能を最適化します。

モデル能力

テキスト生成

高効率推論

低メモリでの実行

使用事例

自然言語処理

テキスト生成

高品質のテキストコンテンツの生成に使用します。

低リソース環境での推論

メモリが限られたデバイスで高効率なテキスト生成タスクを実行します。

🚀 百度ERNIE-4.5-0.3B-PTのLlamacpp imatrix量子化モデル

このプロジェクトでは、llama.cpp の b5780 バージョンを使用して量子化を行っています。このプロジェクトにより、ユーザーはERNIE-4.5-0.3B-PTモデルをより効率的に使用でき、量子化によってモデルサイズを削減し、実行効率を向上させることができます。

オリジナルモデル：https://huggingface.co/baidu/ERNIE-4.5-0.3B-PT

すべての量子化モデルはimatrixオプションを使用し、ここのデータセットを使用しています。

これらの量子化モデルは LM Studio で実行することも、llama.cpp またはllama.cppベースのプロジェクトを直接使用して実行することもできます。

✨ 主な機能

特定バージョンのllama.cppを使用して量子化を行い、量子化の安定性と互換性を保証します。
ユーザーが異なるパフォーマンスと品質の要件を満たすために、複数の量子化タイプを提供します。
LM Studioやllama.cppなどの環境での実行をサポートしています。

📦 インストール

huggingface-cliを使用してダウンロードする

まず、huggingface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、特定のファイルを指定してダウンロードすることができます。

huggingface-cli download bartowski/baidu_ERNIE-4.5-0.3B-PT-GGUF --include "baidu_ERNIE-4.5-0.3B-PT-Q4_K_M.gguf" --local-dir ./

モデルサイズが50GBを超える場合、複数のファイルに分割されます。すべてのファイルをローカルフォルダにダウンロードするには、次のコマンドを実行してください。

huggingface-cli download bartowski/baidu_ERNIE-4.5-0.3B-PT-GGUF --include "baidu_ERNIE-4.5-0.3B-PT-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（baidu_ERNIE-4.5-0.3B-PT-Q8_0など）を指定することも、現在のディレクトリ（./）に直接ダウンロードすることもできます。

💻 使用例

基本的な使用法

LM Studioでは、対応する量子化モデルファイルを直接ロードして使用することができます。

高度な使用法

llama.cppを直接使用して量子化モデルを実行する場合は、具体的な要件に応じて設定と調整を行う必要があります。

📚 ドキュメント

プロンプト形式

特定のプロンプト形式は見つかりませんでした。オリジナルモデルページをご確認ください。

ダウンロードファイルの選択

ファイル名	量子化タイプ	ファイルサイズ	分割状況	説明
ERNIE-4.5-0.3B-PT-bf16.gguf	bf16	0.72GB	false	完全なBF16ウェイト。
ERNIE-4.5-0.3B-PT-Q8_0.gguf	Q8_0	0.39GB	false	非常に高品質で、通常は必要ありませんが、最大限の量子化が可能です。
ERNIE-4.5-0.3B-PT-Q6_K_L.gguf	Q6_K_L	0.32GB	false	埋め込みと出力ウェイトにQ8_0を使用。非常に高品質で、ほぼ完璧で、おすすめ。
ERNIE-4.5-0.3B-PT-Q6_K.gguf	Q6_K	0.30GB	false	非常に高品質で、ほぼ完璧で、おすすめ。
ERNIE-4.5-0.3B-PT-Q5_K_L.gguf	Q5_K_L	0.29GB	false	埋め込みと出力ウェイトにQ8_0を使用。高品質で、おすすめ。
ERNIE-4.5-0.3B-PT-Q5_K_M.gguf	Q5_K_M	0.27GB	false	高品質で、おすすめ。
ERNIE-4.5-0.3B-PT-Q4_K_L.gguf	Q4_K_L	0.27GB	false	埋め込みと出力ウェイトにQ8_0を使用。品質が良好で、おすすめ。
ERNIE-4.5-0.3B-PT-Q5_K_S.gguf	Q5_K_S	0.26GB	false	高品質で、おすすめ。
ERNIE-4.5-0.3B-PT-Q4_1.gguf	Q4_1	0.25GB	false	旧形式で、Q4_K_Sと似たパフォーマンスですが、Appleチップでは1ワットあたりのトークン処理数が向上しています。
ERNIE-4.5-0.3B-PT-Q3_K_XL.gguf	Q3_K_XL	0.25GB	false	埋め込みと出力ウェイトにQ8_0を使用。品質は低いですが使用可能で、低メモリの場合に適しています。
ERNIE-4.5-0.3B-PT-Q4_K_M.gguf	Q4_K_M	0.24GB	false	品質が良好で、ほとんどの使用シナリオのデフォルトサイズで、おすすめ。
ERNIE-4.5-0.3B-PT-Q4_K_S.gguf	Q4_K_S	0.23GB	false	品質は少し低いですが、省スペースで、おすすめ。
ERNIE-4.5-0.3B-PT-Q4_0.gguf	Q4_0	0.23GB	false	旧形式で、ARMおよびAVX CPU推論用のオンザフライ再パックをサポートしています。
ERNIE-4.5-0.3B-PT-IQ4_NL.gguf	IQ4_NL	0.23GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンザフライ再パックをサポートしています。
ERNIE-4.5-0.3B-PT-IQ4_XS.gguf	IQ4_XS	0.23GB	false	品質は妥当で、Q4_K_Sより小さく、パフォーマンスは似ています。おすすめ。
ERNIE-4.5-0.3B-PT-Q3_K_L.gguf	Q3_K_L	0.22GB	false	品質は低いですが使用可能で、低メモリの場合に適しています。
ERNIE-4.5-0.3B-PT-Q3_K_M.gguf	Q3_K_M	0.21GB	false	低品質。
ERNIE-4.5-0.3B-PT-IQ3_M.gguf	IQ3_M	0.21GB	false	中低品質で、新しい方法で、Q3_K_Mと同等のパフォーマンス。
ERNIE-4.5-0.3B-PT-Q2_K_L.gguf	Q2_K_L	0.21GB	false	埋め込みと出力ウェイトにQ8_0を使用。品質は非常に低いですが、意外と使用可能です。
ERNIE-4.5-0.3B-PT-Q3_K_S.gguf	Q3_K_S	0.20GB	false	低品質で、おすすめしません。
ERNIE-4.5-0.3B-PT-IQ3_XS.gguf	IQ3_XS	0.19GB	false	品質は低いですが、新しい方法で、パフォーマンスは妥当で、Q3_K_Sより少し優れています。
ERNIE-4.5-0.3B-PT-Q2_K.gguf	Q2_K	0.18GB	false	品質は非常に低いですが、意外と使用可能です。
ERNIE-4.5-0.3B-PT-IQ3_XXS.gguf	IQ3_XXS	0.17GB	false	品質は低いですが、新しい方法で、パフォーマンスは妥当で、Q3量子化と同等です。
ERNIE-4.5-0.3B-PT-IQ2_M.gguf	IQ2_M	0.16GB	false	品質は比較的低いですが、最先端の技術を使用しており、意外と使用可能です。