Mistral-NeMo-Minitron-8B-Baseオープンソーステキスト生成モデル

ホーム

Mistral NeMo Minitron 8B Base

nvidiaによって開発

Mistral-NeMo-Minitron-8B-Baseは基礎的なテキスト生成モデルで、Mistral-NeMo 12Bを剪枝と蒸留することで得られ、様々な自然言語生成タスクに適しています。

大規模言語モデル

Transformers

オープンソースライセンス:その他 #剪枝蒸留モデル #マルチタスクテキスト生成 #GQAアテンションメカニズム

ダウンロード数 7,924

リリース時間 : 8/19/2024

モデル概要

このモデルは大規模言語モデル(LLM)で、Mistral-NeMo 12Bを剪枝と蒸留することで得られ、様々なテキストタスクを効果的に処理でき、自然言語処理に強力なサポートを提供します。

モデル特徴

剪枝と蒸留による最適化

Mistral-NeMo 12Bを剪枝と蒸留することで得られ、モデル規模を縮小しながら性能を維持します。

効率的なトレーニング

剪枝後、3800億個のトークンを使用して蒸留式の継続的トレーニングを行い、モデル性能を最適化します。

先進的なアーキテクチャ

グループ化クエリアテンション(GQA)や回転位置埋め込み(RoPE)などの先進的な技術を採用しています。

モデル能力

テキスト生成

段落補完

言語理解

コード生成

使用事例

コンテンツ生成

段落補完

プロンプトに基づいて段落内容を補完します。

一貫性のある後続のテキストを生成します。

教育

科学知識の質問応答

科学分野に関する質問に回答します。

正確な科学知識の説明を提供します。

🚀 Mistral-NeMo-Minitron-8B-Base

Mistral-NeMo-Minitron-8B-Baseは、様々な自然言語生成タスクに適用できるテキスト-to-テキストのベースモデルです。この大規模言語モデル（LLM）は、Mistral-NeMo 12Bを剪定と蒸留して得られたものです。詳細については、技術レポートを参照してください。

🚀 クイックスタート

このモデルのサポートは、次回のtransformersリリースで追加されます。それまでは、ソースからライブラリをインストールしてください。

pip install git+https://github.com/huggingface/transformers

以下のコードで推論を実行できます。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# トークナイザーとモデルをロード
model_path = "nvidia/Mistral-NeMo-Minitron-8B-Base"
tokenizer = AutoTokenizer.from_pretrained(model_path)

device = 'cuda'
dtype = torch.bfloat16
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=dtype, device_map=device)

# 入力テキストを準備
prompt = 'Complete the paragraph: our solar system is'
inputs = tokenizer.encode(prompt, return_tensors='pt').to(model.device)

# 出力を生成
outputs = model.generate(inputs, max_length=20)

# 出力をデコードして表示
output_text = tokenizer.decode(outputs[0])
print(output_text)

✨ 主な機能

様々な自然言語生成タスクに適用可能
Mistral-NeMo 12Bを剪定と蒸留して得られた大規模言語モデル

📦 インストール

サポートは次回のtransformersリリースで追加されます。それまでは、ソースからライブラリをインストールしてください。

pip install git+https://github.com/huggingface/transformers

📚 ドキュメント

モデル概要

モデル開発者: NVIDIA
モデル作成期間: 2024年7月24日から2024年8月10日まで

ライセンス

このモデルは、NVIDIA Open Model License Agreementの下でリリースされています。

モデルアーキテクチャ

プロパティ	詳細
モデルタイプ	Transformer Decoder (Auto-Regressive Language Model)
ネットワークアーキテクチャ	Mistral-NeMo
入力タイプ	テキスト
入力形式	文字列
入力パラメータ	一次元 (1D)
入力関連のその他の特性	8000文字以内で良好に動作
出力タイプ	テキスト
出力形式	文字列
出力パラメータ	1D
出力関連のその他の特性	なし

ソフトウェア統合

ランタイムエンジン: NeMo 24.05
サポートされるハードウェアマイクロアーキテクチャ: NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Hopper、NVIDIA Lovelace
オペレーティングシステム: Linux

データセットとトレーニング

データ収集方法: 自動化
ラベリング方法: 該当なし
特性: トレーニングコーパスは英語と多言語のテキスト、およびコードで構成されています。ソースは、ウェブページ、対話、記事などのさまざまなドキュメントタイプをカバーしています。コーパスは、法律、数学、科学、金融などのドメインにまたがっています。継続的なトレーニングセットでは、モデルの性能を向上させるために、少量の質問応答とアライメントスタイルのデータを導入しています。
データの新鮮さ: トレーニングは2024年に行われ、事前学習データのカットオフは2023年6月です。

評価結果

5-shot性能: Massive Multitask Language Understandingを使用して評価。平均スコアは69.5です。
Zero-shot性能: LM Evaluation Harnessから選択したデータセットを使用して評価。 | HellaSwag | Winogrande | GSM8K| ARC-Challenge | XLSum | | :---- | :---- | :---- | :---- | :---- | | 83.0 | 80.4 | 58.5 | 64.4 | 32.0
コード生成性能: MBPPを使用して評価。スコアは43.77です。

推論

エンジン: TensorRT-LLM
テストハードウェア: NVIDIA A100
データ型: BFloat16

制限事項

このモデルは、元々インターネットからクロールされた有毒な言語、不安全な内容、社会的バイアスを含むデータでトレーニングされています。したがって、特に有毒なプロンプトが与えられた場合、これらのバイアスを増幅し、有毒な応答を返す可能性があります。また、プロンプト自体に明示的な不快な内容が含まれていなくても、不正確な回答を生成したり、重要な情報を省略したり、無関係または冗長なテキストを含んだりして、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。

倫理的配慮

NVIDIAは、信頼できるAIは共同の責任であると考えており、幅広いAIアプリケーションの開発を可能にするポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対処するようにする必要があります。

セキュリティの脆弱性またはNVIDIA AIに関する懸念事項は、こちらから報告してください。