🚀 DeciLM-7B
DeciLM-7Bは、70.4億のパラメータを持つデコーダー専用のテキスト生成モデルで、Apache 2.0ライセンスの下で公開されています。公開時点で、DeciLM-7BはOpen LLM Leaderboardで最も性能の高い7Bベース言語モデルです。8Kトークンのシーケンス長をサポートし、この非常に効率的なモデルは可変Grouped-Query Attention (GQA)を使用して、精度と計算効率の優れたバランスを達成しています。モデルのアーキテクチャは、Deci社の独自のニューラルアーキテクチャ検索技術であるAutoNACを使用して生成されました。
📚 ドキュメント
モデルの説明
Deciは、70億のパラメータを持つ事前学習済みの高効率テキスト生成モデルであるDeciLM-7B言語モデルを開発・公開しました。DeciLM-7Bは、最も正確な7Bベースモデルであるだけでなく、Mistral-7Bの最大4.4倍のスループットで、同クラスのすべてのモデルを上回っています。命令型バージョンのDeciLM-7B-instructも公開されています。
- 開発元: Deci
- モデルタイプ: DeciLMは、可変Grouped-Query Attentionを含む最適化されたトランスフォーマーデコーダーアーキテクチャを使用した自己回帰型言語モデルです。
- 言語 (NLP): 英語
- ライセンス: Apache 2.0
モデルアーキテクチャ
パラメータ |
レイヤー |
ヘッド |
シーケンス長 |
GQA num_key_value_heads* |
70.4億 |
32 |
32 |
8192 |
可変 |
*各レイヤーのGQA num_key_value_headsの選択を最適化するためにAutoNACが使用されました。
モデルのソース
🚀 クイックスタート
このモデルを使い始めるには、以下のコードを使用します。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Deci/DeciLM-7B"
device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", trust_remote_code=True).to(device)
inputs = tokenizer.encode("In a shocking finding, scientists discovered a herd of unicorns living in", return_tensors="pt").to(device)
outputs = model.generate(inputs, max_new_tokens=100, do_sample=True, top_p=0.95)
print(tokenizer.decode(outputs[0]))
# The model can also be used via the text-generation pipeline interface
from transformers import pipeline
generator = pipeline("text-generation", "Deci/DeciLM-7B", torch_dtype="auto", trust_remote_code=True, device=device)
outputs = generator("In a shocking finding, scientists discovered a herd of unicorns living in", max_new_tokens=100, do_sample=True, top_p=0.95)
print(outputs[0]["generated_text"])
評価
以下は、DeciLM-7BとDeciLM-7B-instructのOpen LLM Leaderboardの結果です。
モデル |
平均 |
ARC |
HellaSwag |
MMLU |
TruthfulQA |
Winogrande |
GSM8K |
DecilLM-7B |
61.55 |
59.39 |
82.51 |
59.76 |
40.33 |
79.95 |
47.38 |
DecilLM-7B-instruct |
63.19 |
61.01 |
82.37 |
60.24 |
49.75 |
79.72 |
46.02 |
実行時間のベンチマーク
推論ツール |
ハードウェア |
プロンプト長 |
生成長 |
生成トークン/秒 |
バッチサイズ |
プロンプト数 |
HuggingFace (PyTorch) |
A100 (SXM4-80GB-400W) |
512 |
512 |
1174 |
352 |
352 |
HuggingFace (PyTorch) |
A100 (SXM4-80GB-400W) |
2048 |
2048 |
328 |
72 |
72 |
Infery-LLM |
A100 (SXM4-80GB-400W) |
512 |
512 |
4559 |
1024 |
4096 |
Infery-LLM |
A100 (SXM4-80GB-400W) |
2048 |
2048 |
3997 |
512 |
2048 |
Infery-LLM |
A10 |
512 |
512 |
1345 |
128 |
512 |
Infery-LLM |
A10 |
2048 |
2048 |
599 |
32 |
128 |
- Hugging Faceのベンチマーク結果を再現するには、このコード例を使用できます。
- Deciの推論エンジンであるInfery-LLMは、選択的量子化、最適化されたビームサーチ、連続バッチング、カスタムCUDAカーネルなどの一連の最適化アルゴリズムを備えています。Infery-LLMの機能を調べるには、ライブデモを予約してください。
倫理的な考慮事項と制限事項
DeciLM-7Bは、使用に関連する固有のリスクを伴う新しい技術です。これまでに行われたテストは主に英語で行われており、すべての可能なシナリオを網羅していません。すべての大規模言語モデルと同様に、DeciLM-7Bの出力は予測不可能であり、不正確、偏った、またはその他の点で不快な応答を生成する可能性があります。したがって、DeciLM-7Bを使用する予定の開発者は、モデルをデプロイする前に、意図したアプリケーションに特化した徹底的な安全テストとチューニングを行う必要があります。
引用方法
このモデルを引用するには、以下の形式を使用してください。
@misc{DeciFoundationModels,
title = {DeciLM-7B},
author = {DeciAI Research Team},
year = {2023}
url={https://huggingface.co/Deci/DeciLM-7B},
}
📄 ライセンス
Apache 2.0