🚀 PrunaAI - AIモデルの低コスト化、小型化、高速化、グリーン化
PrunaAIは、AIモデルを簡単に低コスト化、小型化、高速化、グリーン化することができます。このモデルが気に入ったら、いいねをしてください!
- こちらから次に圧縮するモデルをお知らせください。
- こちらから独自のAIモデルを簡単に圧縮するためのアクセスをリクエストできます。
- こちらで詳細なドキュメントを読むことができます。
- こちらでDiscordのPruna AIコミュニティに参加して、フィードバックや提案を共有したり、助けを求めたりできます。

🚀 クイックスタート
結果

よくある質問
- 圧縮はどのように機能しますか? モデルはllm - int8で圧縮されます。
- モデルの品質はどのように変化しますか? モデルの出力品質はベースモデルと比較して異なる場合があります。
- モデルの効率はどのように評価されますか? これらの結果は、
model/smash_config.json
に記載された設定でNVIDIA A100 - PCIE - 40GBで取得され、ハードウェアのウォームアップ後に得られます。圧縮されたモデルは元のベースモデルと直接比較されます。効率の結果は、他の設定(例:他のハードウェア、画像サイズ、バッチサイズなど)では異なる場合があります。圧縮されたモデルが有益かどうかを知るには、実際のユースケース条件で直接実行することをお勧めします。
- モデルの形式は何ですか? safetensorsを使用しています。
- どのようなキャリブレーションデータが使用されましたか? 圧縮方法で必要な場合、キャリブレーションデータとしてWikiTextを使用しました。
- Pruna Huggingfaceモデルの命名規則は何ですか? 圧縮されたモデルの推論速度、推論メモリ、または推論エネルギー消費量が元のベースモデルの90%未満の場合、元のモデル名に「turbo」、「tiny」、または「green」を追加します。
- 自分のモデルをどのように圧縮しますか? こちらから、より多くの圧縮方法と特定のユースケースに対する技術サポートへのプレミアムアクセスをリクエストできます。
- 「first」メトリクスとは何ですか? 「first」と記載された結果は、モデルの最初の実行後に得られます。最初の実行は、cudaのオーバーヘッドのため、後続の実行よりも多くのメモリを使用するか、遅くなる場合があります。
- 「Sync」と「Async」メトリクスとは何ですか? 「Sync」メトリクスは、すべてのGPUプロセスを同期し、すべてのプロセスが実行されたときに測定を停止して取得されます。「Async」メトリクスは、すべてのGPUプロセスを同期せずに、モデルの出力がCPUで使用可能になったときに停止して取得されます。どちらのメトリクスもユースケースによって関連する可能性があるため、両方を提供しています。圧縮されたモデルの効率向上を確認するには、直接ユースケースの条件で実行することをお勧めします。
📦 インストール
圧縮されたモデルを以下の手順で実行できます。
- 元のリポジトリmosaicml/mpt - 7b - chatの要件を確認してください。特に、Python、CUDA、およびtransformersのバージョンを確認してください。
- 量子化関連のパッケージがインストールされていることを確認してください。
pip install transformers accelerate bitsandbytes>0.37.0
- モデルをロードして実行します。
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("PrunaAI/mosaicml-mpt-7b-chat-bnb-4bit-smashed",
trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("mosaicml/mpt-7b-chat")
input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]
outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])
📚 ドキュメント
設定情報はsmash_config.json
に記載されています。
📄 ライセンス
圧縮されたモデルのライセンスは元のモデルのライセンスに従います。このモデルのベースとなった元のモデルmosaicml/mpt - 7b - chatのライセンスを使用する前に確認してください。pruna-engine
のライセンスはこちらのPypiに記載されています。
他のモデルを圧縮したい場合
- こちらから次に圧縮するモデルをお知らせください。
- こちらから独自のAIモデルを簡単に圧縮するためのアクセスをリクエストできます。