オープンソースUniversal - NER（UniNER - 7B）モデル：エネルギー消費とメモリを削減し、高精度で固有表現抽出を行う

ホーム

Universal NER UniNER 7B All Bnb 4bit Smashed

PrunaAIによって開発

PrunaAIが提供する圧縮版UniNER-7B-allモデル。量子化技術によりメモリ使用量と消費電力を大幅に削減しながら、良好な固有表現抽出能力を維持。

大規模言語モデル

Transformers

#固有表現抽出 #4ビット量子化 #低メモリ消費

ダウンロード数 22

リリース時間 : 4/12/2024

モデル概要

Universal-NER/UniNER-7B-allを基にした4ビット量子化圧縮版。効率的な固有表現抽出タスクに最適化されており、リソースが限られた環境での展開に適しています。

モデル特徴

効率的な圧縮

llm-int8と4ビット量子化技術を採用し、モデルのメモリ使用量を大幅に削減

環境に優しい

最適化されたモデルは推論時の二酸化炭素排出量と消費電力を削減

プラグアンドプレイ

元モデルと同じインターフェースを維持し、既存コードの変更なしで展開可能

モデル能力

固有表現抽出

テキスト理解

多言語処理

使用事例

情報抽出

文書自動処理

法律文書や医療記録から主要なエンティティ情報を自動抽出

文書処理効率の向上と手動ラベリングコストの削減

コンテンツ分析

ソーシャルメディア監視

ソーシャルメディア上の固有表現(人名、組織、場所など)をリアルタイムで識別

ブランド監視と世論分析をサポート

🚀 PrunaAI - AIモデルの低コスト化、小型化、高速化、グリーン化

PrunaAIは、AIモデルをより安価で、小型で、高速で、環境にやさしいものに変えることができます。モデルの圧縮技術を使って、メモリ使用量や推論時間を削減し、エネルギー消費を抑えます。

このモデルが気に入ったら、いいねをしてください！
次に圧縮してほしいモデルを教えてくださいこちらからお問い合わせください。
あなた自身のAIモデルを簡単に圧縮するためのアクセスをリクエストこちらから申請できます。
詳細を知るためにドキュメントを読むこちら
DiscordでPruna AIコミュニティに参加こちらからフィードバックや提案を共有したり、助けを求めたりできます。

✨ 主な機能

メトリクス: メモリ使用量、推論時間、推論スループット、CO2排出量、エネルギー消費量などのメトリクスを測定します。
タグ: Pruna AI関連のタグが付けられています。

📦 インストール

以下の手順で圧縮されたモデルを実行できます。

元のリポジトリUniversal-NER/UniNER-7B-allの要件を確認してください。特に、Python、CUDA、transformersのバージョンを確認してください。
量子化関連のパッケージをインストールしてください。
```
pip install transformers accelerate bitsandbytes>0.37.0
```

モデルをロードして実行します。

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("PrunaAI/Universal-NER-UniNER-7B-all-bnb-4bit-smashed",
                                             trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("Universal-NER/UniNER-7B-all")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("PrunaAI/Universal-NER-UniNER-7B-all-bnb-4bit-smashed",
                                             trust_remote_code=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained("Universal-NER/UniNER-7B-all")

input_ids = tokenizer("What is the color of prunes?,", return_tensors='pt').to(model.device)["input_ids"]

outputs = model.generate(input_ids, max_new_tokens=216)
tokenizer.decode(outputs[0])

📚 ドキュメント

結果

image info

よくある質問

圧縮はどのように行われますか？ モデルはllm-int8を使って圧縮されます。
モデルの品質はどのように変化しますか？ モデルの出力品質は元のモデルと比較して変化する可能性があります。
モデルの効率はどのように評価されますか？ これらの結果はNVIDIA A100-PCIE-40GBで、model/smash_config.jsonに記載された設定で取得され、ハードウェアのウォームアップ後に取得されます。圧縮されたモデルは元のベースモデルと直接比較されます。効率の結果は他の設定（例：他のハードウェア、画像サイズ、バッチサイズなど）では異なる場合があります。圧縮されたモデルがあなたに有益かどうかを知るために、実際の使用条件で直接実行することをお勧めします。
モデルの形式は何ですか？ 私たちはsafetensorsを使用しています。
どのようなキャリブレーションデータが使用されましたか？ 圧縮方法に必要な場合、キャリブレーションデータとしてWikiTextを使用しました。
Pruna Huggingfaceモデルの命名規則は何ですか？ 測定された推論速度、推論メモリ、または推論エネルギー消費量が元のベースモデルの90%未満である場合、元のモデル名に「turbo」、「tiny」、または「green」を追加します。
自分のモデルを圧縮するにはどうすればいいですか？ あなたの特定のユースケースに対するより多くの圧縮方法と技術サポートへのプレミアムアクセスをリクエストできますこちらから申請できます。
「first」メトリクスとは何ですか？ 「first」と記載された結果は、モデルの最初の実行後に取得されます。最初の実行は、cudaのオーバーヘッドにより、後続の実行よりも多くのメモリを消費したり、遅くなったりする場合があります。
「Sync」と「Async」メトリクスとは何ですか？ 「Sync」メトリクスは、すべてのGPUプロセスを同期し、すべてが実行されたときに測定を停止することで取得されます。「Async」メトリクスは、すべてのGPUプロセスを同期せず、モデルの出力がCPUで使用できるようになったときに停止することで取得されます。両方のメトリクスを提供しているのは、ユースケースによっては両方が関連する可能性があるためです。あなたのユースケースで直接効率の向上をテストすることをお勧めします。