Llama-3.1-Minitron-4B-Width-Baseオープンソーステキストモデル - 無料デプロイで多様な言語生成タスクを支援

ホーム

Llama 3.1 Minitron 4B Width Base

nvidiaによって開発

Llama-3.1-Minitron-4B-Width-Baseは、Llama-3.1-8Bをプルーニングして得られた基本的なテキストからテキストへのモデルで、さまざまな自然言語生成タスクに適しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #プルーニング蒸留モデル #マルチドメインテキスト生成 #GQA効率的推論

ダウンロード数 10.15k

リリース時間 : 8/13/2024

モデル概要

このモデルは、Llama-3.1-8Bをプルーニングして得られ、モデルの埋め込みサイズとMLP中間次元をプルーニングし、940億のトークンを使用して蒸留継続トレーニングを行い、最終的にこのモデルを得ました。

モデル特徴

プルーニング最適化

Llama-3.1-8Bをプルーニングすることで、モデルの埋め込みサイズとMLP中間次元を最適化し、効率を向上させました。

蒸留トレーニング

940億のトークンを使用して蒸留継続トレーニングを行い、モデルの性能を向上させました。

商用利用

このモデルは商用利用の準備が整っており、さまざまな自然言語生成タスクに適しています。

モデル能力

テキスト生成

自然言語理解

コード生成

使用事例

自然言語処理

テキスト補完

段落や文を自動補完し、執筆効率を向上させるために使用されます。

8000文字以内で最適な効果を発揮します。

質問応答システム

ユーザーの質問に答える質問応答システムを構築するために使用されます。

ゼロショット評価で良好なパフォーマンスを示しました。

コード生成

コード補完

コードスニペットを自動補完し、開発効率を向上させるために使用されます。

MBPP評価で32.0のスコアを獲得しました。

🚀 Llama-3.1-Minitron-4B-Width-Base

Llama-3.1-Minitron-4B-Width-Baseは、様々な自然言語生成タスクに適用できるテキスト生成ベースモデルです。NVIDIAによって開発され、商用利用が可能です。

🚀 クイックスタート

このモデルのサポートは、次回のtransformersリリースで追加されます。それまでの間、ソースからライブラリをインストールしてください。

pip install git+https://github.com/huggingface/transformers

✨ 主な機能

Llama-3.1-8Bを剪定して得られたモデルで、モデル埋め込みサイズとMLP中間次元を剪定しています。
940億トークンを使用した蒸留による継続トレーニングを行い、最終的なモデルを得ています。
商用利用が可能です。

📦 インストール

サポートが追加されるまで、ソースからtransformersライブラリをインストールしてください。

pip install git+https://github.com/huggingface/transformers

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer, LlamaForCausalLM

# Load the tokenizer and model
model_path = "nvidia/Llama-3.1-Minitron-4B-Width-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)

device = 'cuda'
dtype = torch.bfloat16
model = LlamaForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)

# Prepare the input text
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)

# Generate the output
outputs = model.generate(inputs, max_length=20)

# Decode and print the output
output_text = tokenizer.decode(outputs[0])
print(output_text)

📚 ドキュメント

モデル概要

Llama-3.1-Minitron-4B-Width-Baseは、様々な自然言語生成タスクに適用できるベースのテキスト生成モデルです。Llama-3.1-8Bを剪定して得られ、モデル埋め込みサイズとMLP中間次元を剪定しています。剪定後、940億トークンを使用した蒸留による継続トレーニングを行い、最終的なモデルを得ています。詳細については、技術レポートを参照してください。

モデルアーキテクチャ

アーキテクチャタイプ: Transformer Decoder (Auto-Regressive Language Model)
ネットワークアーキテクチャ: Llama-3.1
入力タイプ: テキスト
入力形式: 文字列
入力パラメータ: なし
入力に関連するその他のプロパティ: 8000文字以内で良好に動作します。
出力タイプ: テキスト
出力形式: 文字列
出力パラメータ: 1D
出力に関連するその他のプロパティ: なし

ソフトウェア統合

ランタイムエンジン: NeMo 24.05
サポートされるハードウェアマイクロアーキテクチャ互換性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
- NVIDIA Lovelace
推奨/サポートされるオペレーティングシステム: Linux

データセットとトレーニング

データ収集方法: 自動化
ラベリング方法: 該当なし
プロパティ: トレーニングコーパスは、英語と多言語のテキスト、およびコードで構成されています。ソースは、ウェブページ、対話、記事、その他の書面資料など、さまざまなドキュメントタイプをカバーしています。コーパスは、法律、数学、科学、金融などのドメインを網羅しています。継続トレーニングセットでは、モデルのパフォーマンスを向上させるために、少量の質問応答とアライメントスタイルのデータを導入しています。
データの鮮度: 事前学習データのカットオフは2023年6月です。

評価結果

概要

5-shotパフォーマンス: Massive Multitask Language Understandingを使用して言語理解を評価しました。 | 平均 | | :---- | | 60.5 |
Zero-shotパフォーマンス: LM Evaluation Harnessから選択したデータセットを使用して評価しました。 | HellaSwag | Winogrande | GSM8K | ARC-Challenge | XLSum | | :---- | :---- | :---- | :---- | :---- | | 76.1 | 73.5 | 41.2 | 55.6 | 28.7 |
コード生成パフォーマンス: MBPPを使用して評価しました。 | スコア | | :---- | | 32.0 |

推論

エンジン: TensorRT-LLM
テストハードウェア: NVIDIA A100
データ型: BFloat16

制限事項

このモデルは、元々インターネットからクロールされた有毒な言語、不安全なコンテンツ、および社会的バイアスを含むデータでトレーニングされています。したがって、このモデルはそれらのバイアスを増幅し、特に有毒なプロンプトが与えられた場合に有毒な応答を返す可能性があります。また、プロンプト自体に明らかな不快な内容が含まれていなくても、不正確な回答を生成したり、重要な情報を省略したり、関連性のないまたは冗長なテキストを含んだりして、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。

倫理的考慮事項

NVIDIAは、信頼できるAIは共有の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対処するようにする必要があります。

セキュリティバグやNVIDIA AIに関する懸念事項は、こちらから報告してください。