Phi-3 Smallオープンソースモデル - 軽量型で8Kのコンテキストを備え、NVIDIA GPUによる強力な推論が無料で利用可能

ホーム

Phi 3 Small 8k Instruct Onnx Cuda

microsoftによって開発

Phi-3 Smallは70億パラメータの軽量級最先端オープンソースモデルで、NVIDIA GPU向けに最適化されたONNXバージョンであり、8Kの文脈長をサポートし、強力な推論能力を備えています。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #70億パラメータ軽量級 #ONNX推論加速 #マルチタスク命令微調整

ダウンロード数 115

リリース時間 : 5/19/2024

モデル概要

このモデルはPhi-3 Small-8K-InstructのONNX Runtime推論変換版で、ONNX Runtimeを通じてサーバープラットフォーム、Windows、LinuxなどのデバイスのGPU上で動作します。

モデル特徴

高性能推論

FP16 CUDAバージョンはPyTorch比最大4倍高速、INT4 CUDAバージョンは最大10.9倍高速

軽量設計

70億パラメータ規模で、高性能を維持しながらリソース消費を低減

長文脈サポート

8Kトークンの文脈長をサポートし、長文タスクに適しています

マルチプラットフォーム互換性

ONNX Runtimeを通じて様々なデバイスとOSをサポート

モデル能力

テキスト生成

命令追従

常識推論

言語理解

数学計算

コード生成

論理推論

使用事例

対話システム

インテリジェントアシスタント

高性能で低遅延の対話アシスタントを構築

A100 GPU上で毎秒74.62トークンの生成速度を実現

コンテンツ生成

長文生成

8K文脈長を活用して一貫性のある長文コンテンツを生成

🚀 Phi-3 Small-8K-Instruct ONNX CUDA モデル

このリポジトリは、NVIDIA GPUを搭載したマシンでONNX Runtimeを使用して推論を高速化するための、Phi-3-small-8k-instruct の最適化バージョンをホストしています。

Phi-3 Smallは70億パラメータの軽量で最先端のオープンモデルで、合成データと公開されているウェブサイトのフィルタリングされたデータを含むPhi-3データセットで学習されています。このデータセットは高品質で推論に富んだ特性を持っています。このモデルはPhi-3ファミリーの小規模バージョンで、8K と 128K の2つのバリエーションがあり、これはサポートできるコンテキスト長（トークン単位）を表しています。

ベースモデルは、命令追従とセキュリティ対策のために、教師あり微調整と直接的な嗜好最適化の両方を組み込んだ事後学習プロセスを経ています。常識、言語理解、数学、コード、長文コンテキスト、論理推論をテストするベンチマークで評価された際、Phi-3-Small-8K-Instructは同規模および次の規模のモデルの中で強力で最先端のパフォーマンスを示しました。

Phi-3 Smallモデルの最適化バリアントは、ONNX 形式でここに公開されており、ONNX Runtime を使用して、サーバープラットフォーム、Windows、Linuxを含むさまざまなデバイスのGPU上で実行できます。

✨ 主な機能

ONNXモデル

以下は追加された最適化構成の一部です。

FP16 CUDA用のONNXモデル：NVIDIA GPU用のONNXモデルです。
INT4 CUDA用のONNXモデル：RTNを介してint4量子化を使用するNVIDIA GPU用のONNXモデルです。

注意: Hugging Face CLIを使用すると、ディスク容量が限られている場合に、すべてのモデルではなくサブフォルダをダウンロードできます。FP16モデルはより大きなバッチサイズに推奨され、INT4モデルは小さなバッチサイズでのパフォーマンスを最適化します。

例:

# FP16モデルのみをダウンロード
$ huggingface-cli download microsoft/Phi-3-small-8k-instruct-onnx-cuda --include cuda-fp16/* --local-dir .  --local-dir-use-symlinks False

モデルの使い始め方

さまざまなデバイス、プラットフォーム、およびEPバックエンドでPhi-3モデルをサポートするために、生成AI推論のいくつかの側面をラップする新しいAPIを導入しています。このAPIを使用すると、LLMをアプリに簡単にドラッグアンドドロップできます。これらのモデルの初期バージョンをONNXで実行するには、こちらの手順に従ってください。また、このチャットアプリでモデルをテストすることもできます。

サポートされるハードウェア

ONNXモデルは以下の環境でテストされています。

1台のA100 GPU、SKU: Standard_ND96amsr_A100_v4 (CUDA)

必要な最小構成:

CUDA: コンピュートキャパビリティが7.5以上のNVIDIA GPU

モデルの詳細

属性	详情
開発者	Microsoft
モデルタイプ	ONNX
言語 (NLP)	Python、C、C++
ライセンス	MIT
モデル説明	これは、ONNX Runtime推論用に変換されたPhi-3 Small-8K-Instructモデルです。

追加情報

パフォーマンス指標

Phi-3 Small-8K-Instructは、すべてのバッチサイズとプロンプト長の組み合わせにおいて、PyTorchと比較してONNX Runtimeでより良いパフォーマンスを発揮します。FP16 CUDAの場合、ORTはPyTorchより最大4倍速く動作し、INT4 CUDAの場合、PyTorchより最大10.9倍速く動作します。

以下の表は、1台のA100 80GB GPU、SKU: Standard_ND96amsr_A100_v4 で測定された、CUDA上のFP16とINT4精度における最初の256トークンの平均スループット（tps）を示しています。