🚀 SPARK - mini - instruct
SPARK - mini - instructは、原子力分野に特化した言語モデルです。38億パラメータの[SPARK - mini - base](https://huggingface.co/NuclearnAI/SPARK - mini - base)をベースに、原子力分野のデータで学習され、命令に対応するように調整されています。このモデルは、原子力産業関連の実務者や研究者によるさらなる微調整に役立つツールとして提供されています。
🚀 クイックスタート
SPARK - mini - instructは、原子力分野のデータで学習された言語モデルです。以下のコード例を参考に、モデルを使用することができます。
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nuclearnai/SPARK-mini-instruct"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
).to("cuda")
tokenizer = AutoTokenizer.from_pretrained(
model_name,
)
prompt = [
{
"role": "user",
"content": "What are the tech specs appliable to diesel generators?",
}
]
input_ids = tokenizer.apply_chat_template(
prompt,
return_tensors="pt",
).to("cuda")
output = model.generate(
input_ids=input_ids,
min_p=0.2,
temperature=1.0,
do_sample=True,
max_new_tokens=100,
)
print(tokenizer.decode(output[0], skip_special_tokens=True))
出力
What are the tech specs appliable to diesel generators? The technical specifications applicable to diesel generators can vary depending on the specific reactor design and the licensing basis. However, some common technical specifications for diesel generators include: 1. Diesel generator operability requirements, such as minimum required fuel levels, starting air pressure, and surveillance testing intervals. 2. Limitations on the amount of time the diesel generators can be inoperable before the reactor must be shut down. 3.[continued...]
✨ 主な機能
特定のユースケースの加速
国立研究機関や規制機関の技術スタッフの作業を加速するため、特定のドメインの言語モデルを提供し、さらなるユースケースを微調整することができます。
原子力産業システムのパフォーマンス向上
現在、言語モデルを特徴抽出器や予測AIシステムのモデルトランクとして利用している原子力産業のシステムのパフォーマンスを向上させます。
ハードウェアやクラウド接続がない実務者へのアクセシビリティ向上
ハードウェアアクセラレータやクラウド接続機能がない実務者でも、このモデルを利用することができます。
📚 ドキュメント
使用方法
SPARK - mini - instructは原子力ドメインに特化しており、そのため誘導されたバイアスを持って応答します。
ライセンス
ライセンス: [CC - BY - NC](https://creativecommons.org/licenses/by - nc/4.0/deed.en) ですが、以下の制限なしの使用の例外があります。
以下の限られた数の商業エンティティによる無料でオープン、自由かつ無制限の使用を許可するようにCC - BY - NCをさらに修正しています。
- 原子力事業者
- 規制機関(商業または政府)
- 研究機関および研究に特化したグループ(例: 国立研究所や電力関連の研究グループ)
詳細情報または書面による許可については、お問い合わせください。
バイアス、リスク、制限事項
- このモデルは原子力発電関連の情報で広範に学習されていますが、他の言語モデルと同様に、事実や論理的な誤りを犯すことがあります。
- このモデルは、さらなる学習や適切なガードレールなしでは、本番環境でのユースケースには使用しないでください。
- モデルには、制御性のために意図的なバイアスが学習されています。
- SPARK - mini - instructは誤った応答や事実を出力することがあります。元のPhi3開発者が指摘したように、38億パラメータでは完全な事実の記憶には不十分です。エンドユーザー開発者はアプリケーションのガードレールを提供する必要があります。
- Phi - 3のプロンプトテンプレートが誤っていたり使いにくいという問題がLMコミュニティで多数報告されています。モデルの生成が予期通りに停止しないことがあります。<|end|> および <|end_of_text|> の特殊トークンに追加の停止条件を追加することをお勧めします。
🔧 技術詳細
学習データ
SPARK - mini - instructのすべての学習データは公開されているソースから取得されていますが、公開はされていません。
学習データの具体的な詳細、または学習データの共有については、contact@nuclearn.ai までお問い合わせすることで、ケースバイケースで提供されます。
学習手順
このモデルは、マルチノードのプライベートA100サーバークラスターでDeepSpeed Zero3を使用してbf16で学習されました。
評価
SPARK - mini - instructは、原子力産業の特定の知識をテストするために特別に作成された一連の非公開ベンチマークで評価されました。
完了タスク(原子力用HellaSWAG)
- HellaSWAGベンチマークをモデルにしています。
- 複雑な原子力発電所の運転シナリオや事実の文章の様々な完了タスクです。
選択式QA(原子力用MMLU)
- MMLUベンチマークをモデルにしています。
- 原子力発電所の運転、システム、エンジニアリングなどに関する選択式の質問と回答です。
環境への影響
- ハードウェアタイプ: A100 - 80GB SXM4
- クラウドプロバイダー: Nuclearn Training Cluster
モデルアーキテクチャと目的
SPARK - mini - instructはPhi3アーキテクチャに基づいています。
コンピュートインフラストラクチャ
SPARK - mini - instructは、800Gb/s Infiniband接続を持つA100 - 80GB SXMサーバークラスターであるNuclearn Trainingクラスターで学習されました。
📄 ライセンス
このモデルは、[CC - BY - NC](https://creativecommons.org/licenses/by - nc/4.0/deed.en) ライセンスで提供されていますが、特定の商業エンティティによる制限なしの使用が許可されています。詳細については、上記の「ライセンス」セクションを参照してください。
モデルカード作成者
Bradley Fox, Nuclearn Inc
Jerrold Vincent, Nuclearn Inc
Nate Irby, Nuclearn Inc