🚀 LLaMa-65b-instructモデルカード
このモデルは、大規模言語モデルLLaMAをベースにした指示応答型のモデルです。様々なサイズとシーケンス長のバリエーションがあり、特定のデータセットを使って訓練されています。
✨ 主な機能
- 最大10k以上の入力トークンを処理できます。
- 特定のデータセットを用いて訓練され、指示に対する応答が可能です。
- 複数のベンチマークデータセットで評価され、高い性能を示しています。
📦 インストール
このモデルを使用するには、以下の手順でインストールが必要です。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
tokenizer = AutoTokenizer.from_pretrained("upstage/llama-65b-instruct")
model = AutoModelForCausalLM.from_pretrained(
"upstage/llama-65b-instruct",
device_map="auto",
torch_dtype=torch.float16,
load_in_8bit=True,
rope_scaling={"type": "dynamic", "factor": 2}
)
💻 使用例
基本的な使用法
prompt = "### User:\nThomas is healthy, but he has to go to the hospital. What could be the reasons?\n\n### Assistant:\n"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
del inputs["token_type_ids"]
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
output = model.generate(**inputs, streamer=streamer, use_cache=True, max_new_tokens=float('inf'))
output_text = tokenizer.decode(output[0], skip_special_tokens=True)
📚 ドキュメント
モデル詳細
データセット詳細
使用されたデータセット
- Orcaスタイルのデータセット
- 上記のデータセット以外のデータは使用されていません。
プロンプトテンプレート
### System:
{System}
### User:
{User}
### Assistant:
{Assistant}
ハードウェアとソフトウェア
評価結果
概要
主要な結果
モデル |
H4(平均) |
ARC |
HellaSwag |
MMLU |
TruthfulQA |
|
MT_Bench |
Llama-2-70b-instruct-v2(当社、Open LLM Leaderboard) |
73 |
71.1 |
87.9 |
70.6 |
62.2 |
|
7.44063 |
Llama-2-70b-instruct (当社、Open LLM Leaderboard) |
72.3 |
70.9 |
87.5 |
69.8 |
61 |
|
7.24375 |
llama-65b-instruct (当社, Open LLM Leaderboard) |
69.4 |
67.6 |
86.5 |
64.9 |
58.8 |
|
|
Llama-2-70b-hf |
67.3 |
67.3 |
87.3 |
69.8 |
44.9 |
|
|
llama-30b-instruct-2048 (当社、Open LLM Leaderboard) |
67.0 |
64.9 |
84.9 |
61.9 |
56.3 |
|
|
llama-30b-instruct (当社、Open LLM Leaderboard) |
65.2 |
62.5 |
86.2 |
59.4 |
52.8 |
|
|
llama-65b |
64.2 |
63.5 |
86.1 |
63.9 |
43.4 |
|
|
falcon-40b-instruct |
63.4 |
61.6 |
84.3 |
55.4 |
52.5 |
|
|
H4スコア再現用のスクリプト
# clone the repository
git clone https://github.com/EleutherAI/lm-evaluation-harness.git
# check out the specific commit
git checkout b281b0921b636bc36ad05c0b0b0763bd6dd43463
# change to the repository directory
cd lm-evaluation-harness
倫理的な問題
倫理的な考慮事項
- ベンチマークテストセットや訓練セットをモデルの訓練プロセスに含めていないため、倫理的な問題はありませんでした。
お問い合わせ
なぜUpstageのLLMなのか?
- UpstageのLLM研究は目覚ましい結果をもたらしています。8月1日現在、当社の70BモデルはopenLLMランキングでトップにランクインし、現在世界で最も優れたパフォーマンスを誇っています。プライベートLLMを実際のビジネスに導入する可能性を認識し、プライベートLLMを簡単に適用し、独自のデータで微調整することをお勧めします。シームレスでカスタマイズされたソリューションについては、お気軽にお問い合わせください。► ここをクリックしてお問い合わせ