🚀 Llama-3.1-Minitron-4B-Width-Base
Llama-3.1-Minitron-4B-Width-Baseは、様々な自然言語生成タスクに適用できるテキスト生成ベースモデルです。NVIDIAによって開発され、商用利用が可能です。
🚀 クイックスタート
このモデルのサポートは、次回のtransformers
リリースで追加されます。それまでの間、ソースからライブラリをインストールしてください。
pip install git+https://github.com/huggingface/transformers
✨ 主な機能
- Llama-3.1-8Bを剪定して得られたモデルで、モデル埋め込みサイズとMLP中間次元を剪定しています。
- 940億トークンを使用した蒸留による継続トレーニングを行い、最終的なモデルを得ています。
- 商用利用が可能です。
📦 インストール
サポートが追加されるまで、ソースからtransformers
ライブラリをインストールしてください。
pip install git+https://github.com/huggingface/transformers
💻 使用例
基本的な使用法
import torch
from transformers import AutoTokenizer, LlamaForCausalLM
model_path = "nvidia/Llama-3.1-Minitron-4B-Width-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)
device = 'cuda'
dtype = torch.bfloat16
model = LlamaForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)
outputs = model.generate(inputs, max_length=20)
output_text = tokenizer.decode(outputs[0])
print(output_text)
📚 ドキュメント
モデル概要
Llama-3.1-Minitron-4B-Width-Baseは、様々な自然言語生成タスクに適用できるベースのテキスト生成モデルです。Llama-3.1-8Bを剪定して得られ、モデル埋め込みサイズとMLP中間次元を剪定しています。剪定後、940億トークンを使用した蒸留による継続トレーニングを行い、最終的なモデルを得ています。詳細については、技術レポートを参照してください。
モデルアーキテクチャ
- アーキテクチャタイプ: Transformer Decoder (Auto-Regressive Language Model)
- ネットワークアーキテクチャ: Llama-3.1
- 入力タイプ: テキスト
- 入力形式: 文字列
- 入力パラメータ: なし
- 入力に関連するその他のプロパティ: 8000文字以内で良好に動作します。
- 出力タイプ: テキスト
- 出力形式: 文字列
- 出力パラメータ: 1D
- 出力に関連するその他のプロパティ: なし
ソフトウェア統合
- ランタイムエンジン: NeMo 24.05
- サポートされるハードウェアマイクロアーキテクチャ互換性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
- NVIDIA Lovelace
- 推奨/サポートされるオペレーティングシステム: Linux
データセットとトレーニング
- データ収集方法: 自動化
- ラベリング方法: 該当なし
- プロパティ: トレーニングコーパスは、英語と多言語のテキスト、およびコードで構成されています。ソースは、ウェブページ、対話、記事、その他の書面資料など、さまざまなドキュメントタイプをカバーしています。コーパスは、法律、数学、科学、金融などのドメインを網羅しています。継続トレーニングセットでは、モデルのパフォーマンスを向上させるために、少量の質問応答とアライメントスタイルのデータを導入しています。
- データの鮮度: 事前学習データのカットオフは2023年6月です。
評価結果
概要
-
5-shotパフォーマンス: Massive Multitask Language Understandingを使用して言語理解を評価しました。
| 平均 |
| :---- |
| 60.5 |
-
Zero-shotパフォーマンス: LM Evaluation Harnessから選択したデータセットを使用して評価しました。
| HellaSwag | Winogrande | GSM8K | ARC-Challenge | XLSum |
| :---- | :---- | :---- | :---- | :---- |
| 76.1 | 73.5 | 41.2 | 55.6 | 28.7 |
-
コード生成パフォーマンス: MBPPを使用して評価しました。
| スコア |
| :---- |
| 32.0 |
推論
- エンジン: TensorRT-LLM
- テストハードウェア: NVIDIA A100
- データ型: BFloat16
制限事項
このモデルは、元々インターネットからクロールされた有毒な言語、不安全なコンテンツ、および社会的バイアスを含むデータでトレーニングされています。したがって、このモデルはそれらのバイアスを増幅し、特に有毒なプロンプトが与えられた場合に有毒な応答を返す可能性があります。また、プロンプト自体に明らかな不快な内容が含まれていなくても、不正確な回答を生成したり、重要な情報を省略したり、関連性のないまたは冗長なテキストを含んだりして、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。
倫理的考慮事項
NVIDIAは、信頼できるAIは共有の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対処するようにする必要があります。
セキュリティバグやNVIDIA AIに関する懸念事項は、こちらから報告してください。
参考文献
📄 ライセンス
このモデルは、NVIDIA Open Model License Agreementの下でリリースされています。