mosaicml - mpt - 7bストーリーライターオープンソースのストーリー作成モデル

ホーム

Mosaicml Mpt 7b Storywriter Bnb 4bit Smashed

PrunaAIによって開発

PrunaAIが圧縮したMPT-7Bストーリーライティングモデル。llm-int8技術により高効率推論を実現

大規模言語モデル

Transformers

その他#4ビット量子化 #ストーリー生成 #低メモリ消費

ダウンロード数 27

リリース時間 : 4/4/2024

モデル概要

これは圧縮されたMPT-7B大型言語モデルで、ストーリーライティングタスクに特化して最適化されており、生成品質を維持しながらリソース消費を大幅に削減します

モデル特徴

高効率推論

4ビット量子化技術によりメモリ使用量と計算要件を大幅に削減

環境にやさしい計算

最適化されたエネルギー消費により二酸化炭素排出量を削減

高速応答

元のモデルと比較して低い推論遅延を提供

即時使用可能

Hugging Faceエコシステムと互換性があり、簡単にデプロイできます

モデル能力

長文ストーリー生成

クリエイティブライティング支援

コンテキスト感知テキスト補完

使用事例

コンテンツ作成

小説ライティング支援

作家がクリエイティブな段落を生成したり、ライティングの障壁を克服したりするのを支援

首尾一貫した長編ストーリーコンテンツを生成できます

インタラクティブストーリーアプリ

ゲームやインタラクティブアプリに動的なストーリー生成を提供

低遅延応答によりユーザー体験が向上します

教育

クリエイティブライティング教育

学生のクリエイティブライティングの啓発ツールとして

リソースが制限された環境でも動作します

🚀 Pruna AI - AIモデルを安価で小型、高速、グリーンに！

Pruna AIは、AIモデルを安価で小型、高速、グリーンにすることを目的としています。このモデルを使って、AIモデルの圧縮を簡単に行うことができます。

このモデルが気に入ったら、いいねをしてください！
次に圧縮してほしいモデルを教えてくれる場合は、こちらからお問い合わせください。
あなた自身のAIモデルを簡単に圧縮するためのアクセスをリクエストするには、こちらをクリックしてください。
詳細を知るには、こちらのドキュメントを読んでください。
DiscordでPruna AIコミュニティに参加するには、こちらをクリックしてください。フィードバックや提案を共有したり、助けを求めたりすることができます。

✨ 主な機能

メトリクス: memory_disk、memory_inference、inference_latency、inference_throughput、inference_CO2_emissions、inference_energy_consumption
タグ: pruna-ai

📦 インストール

必要条件の確認

元のリポジトリmosaicml/mpt-7b-storywriterの要件を確認してください。特に、Python、CUDA、およびtransformersのバージョンを確認してください。

量子化関連パッケージのインストール

pip install transformers accelerate bitsandbytes>0.37.0

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("PrunaAI/mosaicml-mpt-7b-storywriter-bnb-4bit-smashed",
                                             trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("mosaicml/mpt-7b-storywriter")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])

📚 ドキュメント

結果

image info

よくある質問

圧縮はどのように行われますか？ モデルはllm-int8で圧縮されます。
モデルの品質はどのように変化しますか？ モデル出力の品質は、ベースモデルと比較して異なる場合があります。
モデルの効率はどのように評価されますか？ これらの結果は、NVIDIA A100-PCIE-40GBで、model/smash_config.jsonに記載されている構成で取得され、ハードウェアのウォームアップ後に取得されます。圧縮されたモデルは、元のベースモデルと直接比較されます。効率の結果は、他の設定（例：他のハードウェア、画像サイズ、バッチサイズなど）では異なる場合があります。圧縮されたモデルがあなたに有益かどうかを知るために、実際のユースケース条件で直接実行することをお勧めします。
モデルの形式は何ですか？ 私たちはsafetensorsを使用しています。
どのようなキャリブレーションデータが使用されていますか？ 圧縮方法に必要な場合、キャリブレーションデータとしてWikiTextを使用しました。
Pruna Huggingfaceモデルの命名規則は何ですか？ 測定された推論速度、推論メモリ、または推論エネルギー消費が元のベースモデルの90％未満である場合、元のモデル名に「turbo」、「tiny」、または「green」を追加します。
自分のモデルを圧縮するにはどうすればいいですか？ 特定のユースケースに対するより多くの圧縮方法と技術サポートへのプレミアムアクセスをリクエストすることができます。こちらから申請してください。
「first」メトリクスとは何ですか？ 「first」と記載された結果は、モデルの最初の実行後に取得されます。最初の実行は、CUDAのオーバーヘッドのため、その後の実行よりも多くのメモリを使用するか、遅くなる場合があります。
「Sync」と「Async」メトリクスとは何ですか？ 「Sync」メトリクスは、すべてのGPUプロセスを同期し、すべてのプロセスが実行されたときに測定を停止することで取得されます。「Async」メトリクスは、すべてのGPUプロセスを同期せず、モデル出力がCPUで使用できるようになったときに停止することで取得されます。どちらのメトリクスも提供しています。ユースケースに応じてどちらも関連する可能性があるためです。ユースケースで直接効率の向上をテストすることをお勧めします。