🚀 10.7B Solarの紹介: UpstageのDepth UP Scalingによるパフォーマンス向上!
SOLAR-10.7Bは、107億のパラメータを持つ高度な大規模言語モデル(LLM)です。様々な自然言語処理(NLP)タスクにおいて卓越したパフォーマンスを発揮し、コンパクトながらも非常に強力で、300億未満のパラメータを持つモデルの中で類を見ない最先端の性能を示しています。
🚀 クイックスタート
SOLAR-10.7Bは、パラメータの深度アップスケーリング(DUS)という手法を用いて開発されました。これにはアーキテクチャの変更と継続的な事前学習が含まれます。つまり、Mistral 7Bの重みを拡張したレイヤーに統合し、最後にモデル全体を継続的に事前学習しました。
SOLAR-10.7Bは、300億までのパラメータを持つモデルを上回る性能を発揮し、最近のMixtral 8X7Bモデルさえも超えています。詳細な情報は、実験結果の表を参照してください。
Solar 10.7Bは、ファインチューニングに最適な選択肢です。SOLAR-10.7Bは、ファインチューニングのニーズに対して堅牢性と適応性を提供します。SOLAR-10.7Bの事前学習モデルを使用したシンプルな命令ファインチューニングにより、大幅な性能向上が得られます(SOLAR-10.7B-Instruct-v1.0)。
このモデルの詳細については、論文をご覧ください。
✨ 主な機能
- 107億のパラメータを持つ大規模言語モデル
- 深度アップスケーリング(DUS)手法による開発
- 300億未満のパラメータを持つモデルの中で最先端の性能
- ファインチューニングに適している
📦 インストール
このモデルを使用するには、正しいバージョンのtransformersライブラリをインストールする必要があります。
pip install transformers==4.35.2
💻 使用例
基本的な使用法
モデルをロードするには、以下のPythonコードを使用します。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Upstage/SOLAR-10.7B-v1.0")
model = AutoModelForCausalLM.from_pretrained(
"Upstage/SOLAR-10.7B-v1.0",
device_map="auto",
torch_dtype=torch.float16,
)
高度な使用法
テキストを生成するには、以下のPythonコードを使用します。
text = "Hi, my name is "
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 ドキュメント
評価結果
モデル |
H6 |
モデルサイズ |
SOLAR-10.7B-Instruct-v1.0 |
74.20 |
~ 11B |
mistralai/Mixtral-8x7B-Instruct-v0.1 |
72.62 |
~ 46.7B |
01-ai/Yi-34B-200K |
70.81 |
~ 34B |
01-ai/Yi-34B |
69.42 |
~ 34B |
mistralai/Mixtral-8x7B-v0.1 |
68.42 |
~ 46.7B |
meta-llama/Llama-2-70b-hf |
67.87 |
~ 70B |
tiiuae/falcon-180B |
67.85 |
~ 180B |
SOLAR-10.7B-v1.0 |
66.04 |
~11B |
mistralai/Mistral-7B-Instruct-v0.2 |
65.71 |
~ 7B |
Qwen/Qwen-14B |
65.86 |
~ 14B |
01-ai/Yi-34B-Chat |
65.32 |
~34B |
meta-llama/Llama-2-70b-chat-hf |
62.4 |
~ 70B |
mistralai/Mistral-7B-v0.1 |
60.97 |
~ 7B |
mistralai/Mistral-7B-Instruct-v0.1 |
54.96 |
~ 7B |
ライセンス
引用方法
このモデルを引用するには、以下の形式を使用してください。
@misc{kim2023solar,
title={SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling},
author={Dahyun Kim and Chanjun Park and Sanghoon Kim and Wonsung Lee and Wonho Song and Yunsu Kim and Hyeonwoo Kim and Yungi Kim and Hyeonju Lee and Jihoo Kim and Changbae Ahn and Seonghoon Yang and Sukyung Lee and Hyunbyung Park and Gyoungjin Gim and Mikyoung Cha and Hwalsuk Lee and Sunghun Kim},
year={2023},
eprint={2312.15166},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Upstage AIチーム
Upstageは、最高のLLMとDocAIを創造しています。詳細な情報は、https://upstage.ai をご覧ください。
お問い合わせ
質問や提案がある場合は、ディスカッションタブを使用してください。直接お問い合わせをしたい場合は、contact@upstage.ai までメールを送信してください。