llama-65b-instructオープンソース大規模言語モデル - 無料でデプロイ可能、長文処理能力に優れる

ホーム

Llama 65b Instruct

upstageによって開発

UpstageがLLaMAアーキテクチャに基づいて開発した65Bパラメータの命令微調整大規模言語モデルで、長文処理をサポート

大規模言語モデル

Transformers

英語#超長テキスト処理 #命令微調整最適化 #英語対話システム

ダウンロード数 144

リリース時間 : 7/17/2023

モデル概要

これは65Bパラメータ規模の命令微調整大規模言語モデルで、MetaのLLaMAアーキテクチャに基づいて開発され、特に命令追従と長文処理能力が最適化されています。

モデル特徴

長文処理能力

rope_scaling技術により10kトークンを超えるコンテキスト長をサポート

命令最適化

Orcaスタイルのデータセットで微調整され、命令追従能力が向上

効率的な推論

8-bit量子化ロードをサポートし、ハードウェア要件を低減

モデル能力

テキスト生成

命令追従

長文理解

質問応答システム

使用事例

インテリジェントアシスタント

マルチターン対話システム

長い対話コンテキストを理解できるインテリジェントアシスタントの構築

知識質問応答

複雑な問題解答

長いコンテキスト理解を必要とする複雑な問題の処理

🚀 LLaMa-65b-instructモデルカード

このモデルは、大規模言語モデルLLaMAをベースにした指示応答型のモデルです。様々なサイズとシーケンス長のバリエーションがあり、特定のデータセットを使って訓練されています。

✨ 主な機能

最大10k以上の入力トークンを処理できます。
特定のデータセットを用いて訓練され、指示に対する応答が可能です。
複数のベンチマークデータセットで評価され、高い性能を示しています。

📦 インストール

このモデルを使用するには、以下の手順でインストールが必要です。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

tokenizer = AutoTokenizer.from_pretrained("upstage/llama-65b-instruct")
model = AutoModelForCausalLM.from_pretrained(
    "upstage/llama-65b-instruct",
    device_map="auto",
    torch_dtype=torch.float16,
    load_in_8bit=True,
    rope_scaling={"type": "dynamic", "factor": 2} # allows handling of longer inputs
)

💻 使用例

基本的な使用法

prompt = "### User:\nThomas is healthy, but he has to go to the hospital. What could be the reasons?\n\n### Assistant:\n"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
del inputs["token_type_ids"]
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

output = model.generate(**inputs, streamer=streamer, use_cache=True, max_new_tokens=float('inf'))
output_text = tokenizer.decode(output[0], skip_special_tokens=True)

📚 ドキュメント

モデル詳細

属性	详情
開発者	Upstage
バックボーンモデル	LLaMA
バリエーション	異なるモデルパラメータサイズとシーケンス長があります: 30B/1024, 30B/2048, 65B/1024
言語	英語
ライブラリ	HuggingFace Transformers
ライセンス	このモデルは非商用の独自ライセンスの下にあり、Metaのライセンスに準拠しています。このフォームに記入してモデルへのアクセスを許可されたが、重みのコピーを失った場合、またはそれらをTransformers形式に変換する際に問題が発生した場合にのみ、このリポジトリを使用する必要があります。
コメント送信先	モデルに対するフィードバックやコメントを提供する方法についての指示は、Hugging Faceコミュニティのモデルリポジトリで問題を開くことで見つけることができます。
問い合わせ先	モデルに関する質問やコメントは、contact@upstage.aiまでメールでお問い合わせください。

データセット詳細

使用されたデータセット

Orcaスタイルのデータセット
上記のデータセット以外のデータは使用されていません。

プロンプトテンプレート

### System:
{System}

### User:
{User}

### Assistant:
{Assistant}

ハードウェアとソフトウェア

ハードウェア：このモデルの訓練にはA100x8 * 4を使用しました。
訓練要素：このモデルはDeepSpeedライブラリとHuggingFace Trainerを組み合わせて微調整されました。

評価結果

概要

Open LLM Leaderboardで評価されているタスクに基づいて、パフォーマンス評価を実施しました。
このモデルはARC-Challenge、HellaSwag、MMLU、TruthfulQAの4つのベンチマークデータセットで評価されました。
lm-evaluation-harnessリポジトリ、具体的にはコミットb281b0921b636bc36ad05c0b0b0763bd6dd43463を使用しました。
MT-bench、一連の難しいマルチターンのオープンエンドの質問を使用して、モデルを評価しました。

主要な結果

モデル	H4(平均)	ARC	HellaSwag	MMLU	TruthfulQA	MT_Bench
Llama-2-70b-instruct-v2(当社、Open LLM Leaderboard)	73	71.1	87.9	70.6	62.2	7.44063
Llama-2-70b-instruct (当社、Open LLM Leaderboard)	72.3	70.9	87.5	69.8	61	7.24375
llama-65b-instruct (当社, Open LLM Leaderboard)	69.4	67.6	86.5	64.9	58.8
Llama-2-70b-hf	67.3	67.3	87.3	69.8	44.9
llama-30b-instruct-2048 (当社、Open LLM Leaderboard)	67.0	64.9	84.9	61.9	56.3
llama-30b-instruct (当社、Open LLM Leaderboard)	65.2	62.5	86.2	59.4	52.8
llama-65b	64.2	63.5	86.1	63.9	43.4
falcon-40b-instruct	63.4	61.6	84.3	55.4	52.5

H4スコア再現用のスクリプト

評価環境を準備します。

# clone the repository
git clone https://github.com/EleutherAI/lm-evaluation-harness.git

# check out the specific commit
git checkout b281b0921b636bc36ad05c0b0b0763bd6dd43463

# change to the repository directory
cd lm-evaluation-harness

倫理的な問題

倫理的な考慮事項

ベンチマークテストセットや訓練セットをモデルの訓練プロセスに含めていないため、倫理的な問題はありませんでした。

お問い合わせ

なぜUpstageのLLMなのか？

UpstageのLLM研究は目覚ましい結果をもたらしています。8月1日現在、当社の70BモデルはopenLLMランキングでトップにランクインし、現在世界で最も優れたパフォーマンスを誇っています。プライベートLLMを実際のビジネスに導入する可能性を認識し、プライベートLLMを簡単に適用し、独自のデータで微調整することをお勧めします。シームレスでカスタマイズされたソリューションについては、お気軽にお問い合わせください。► ここをクリックしてお問い合わせ