モデル概要
モデル特徴
モデル能力
使用事例
🚀 獅子神 V2
獅子神 V2 は、Shisa.AI によって訓練された一連の日英バイリンガル(JA/EN)汎用チャットモデルです。これらのモデルは、日本語のタスクで優れた性能を発揮しつつ、強力な英語能力も維持することを目的としています。
当初の 獅子神 7B をリリースして以来、オープンウェイトの言語モデルの日本語の基礎能力は著しく向上しています。新しいモデルは、より多くの日本語事前学習トークンを持ち、日本語トークナイザの効率 が高く、全体的な日本語出力品質も良好です。そのため、獅子神 V2 では、トークナイザの拡張とコストのかかる継続的な事前学習を見送り、最適化された事後学習に完全に焦点を当てました。最初に 獅子神 7B モデルで開発された合成データ駆動型の方法を大幅に拡張し、性能を著しく向上させました。
🚀 クイックスタート
獅子神 V2 モデルを直接使用してテキスト生成タスクを実行できます。それぞれのベースモデルの チャットテンプレート を継承しており、vLLM と SGLang でテストおよび検証され、正しく推論できることが保証されています。
✨ 主な機能
- バイリンガル能力:優れた日本語と英語の処理能力を備え、特に日本語のタスクで卓越した性能を発揮します。
- 性能向上:ベースモデルと比較して、日本語の出力品質が著しく向上しています。
- データ駆動:合成データ駆動型の方法を用いて訓練され、事後学習プロセスが最適化されています。
📚 ドキュメント
モデルファミリーの概要
獅子神 V2 ファミリーには、パラメータ規模が 7B から 70B までの一連のモデルが含まれています。
ライセンス | モデル | パラメータ | コンテキスト長 | 日本語平均スコア | 英語平均スコア |
---|---|---|---|---|---|
Apache 2.0 | shisa-v2-qwen2.5-7b | 7B | 128K/8K | 71.06 | 54.86 |
Llama 3.1 | shisa-v2-llama3.1-8b1 | 8B | 128K | 70.83 | 54.75 |
Apache 2.0 | shisa-v2-mistral-nemo-12b | 12B | 128K | 72.83 | 53.33 |
MIT | shisa-v2-unphi4-14b | 14B | 16K | 75.89 | 60.10 |
Apache 2.0 | shisa-v2-qwen2.5-32b | 32B | 128K/8K | 76.97 | 67.41 |
Llama 3.3 | shisa-v2-llama3.3-70b1 | 70B | 128K | 79.72 | 67.71 |
これらの獅子神 V2 モデルはすべて、同じデータセットと訓練方法を使用して訓練されています。ただし、モデルのサイズに応じて学習率を調整し、70B モデルの場合はグローバルバッチサイズを変更しています。
性能表現
すべての獅子神 V2 モデルは、それぞれのベースモデルと比較して、日本語の出力品質が向上しています。
モデル | 日本語平均スコア | 英語平均スコア | Shaberi 平均スコア | ELYZA 100 | JA MT Bench | Rakuda | Tengu | llm-jp-eval | shisa-jp-ifeval | shisa-jp-rp-bench | shisa-jp-tl-bench | MixEval | LiveBench | IFEval | EvalPlus |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
shisa-ai/shisa-v2-llama3.1-8b | 70.83 | 54.75 | 8.20 | 7.67 | 8.32 | 9.24 | 7.56 | 0.57 | 0.31 | 4.61 | 5.91 | 0.45 | 31.7 | 0.82 | 0.61 |
meta-llama/Llama-3.1-8B-Instruct | 53.43 | 53.88 | 7.34 | 6.95 | 7.67 | 8.36 | 6.40 | 0.25 | 0.16 | 4.13 | 1.03 | 0.44 | 27.7 | 0.80 | 0.63 |
獅子神 V2 モデルは、それぞれのパラメータ規模のカテゴリで、他のモデルと比較して優れた性能を発揮しています。
参考のため、最近リリースした shisa-v2-llama3.1-8b-preview の “プレビュー版” と、依然として人気があるがすでに置き換えられた shisa-gamma-7b-v1 モデルも掲載しています。
| ライセンス | モデル | 日本語平均スコア | 英語平均スコア | Shaberi 平均スコア | ELYZA 100 | JA MT Bench | Rakuda | Tengu | llm-jp-eval | shisa-jp-ifeval | shisa-jp-rp-bench | shisa-jp-tl-bench | MixEval | LiveBench | IFEval | EvalPlus | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | Apache 2.0 | shisa-ai/shisa-v2-qwen2.5-7b | 71.06 | 54.86 | 8.21 | 7.81 | 8.49 | 8.91 | 7.62 | 0.59 | 0.32 | 4.49 | 5.98 | 0.44 | 32.9 | 0.70 | 0.73 | | Llama 3.1 | shisa-ai/shisa-v2-llama3.1-8b | 70.83 | 54.75 | 8.20 | 7.67 | 8.32 | 9.24 | 7.56 | 0.57 | 0.31 | 4.61 | 5.91 | 0.45 | 31.7 | 0.82 | 0.61 | | Llama 3.1 | shisa-ai/shisa-v2-llama3.1-8b-preview | 68.03 | 54.56 | 8.12 | 7.55 | 8.57 | 9.03 | 7.33 | 0.56 | 0.19 | 4.67 | 5.18 | 0.46 | 32.0 | 0.79 | 0.62 | | Llama 3.1 | tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3 | 67.44 | 42.20 | 8.22 | 8.01 | 8.40 | 9.10 | 7.37 | 0.56 | 0.25 | 4.36 | 4.22 | 0.30 | 26.4 | 0.64 | 0.48 | | Apache 2.0 | Qwen/Qwen2.5-7B-Instruct | 65.30 | 58.11 | 8.03 | 7.81 | 8.09 | 8.68 | 7.53 | 0.57 | 0.29 | 4.15 | 3.29 | 0.44 | 33.9 | 0.76 | 0.79 | | Llama 3.1 | AXCXEPT/Llama-3.1-8B-EZO-1.1-it | 63.80 | 53.94 | 7.93 | 7.57 | 8.26 | 8.61 | 7.28 | 0.39 | 0.22 | 4.53 | 4.17 | 0.46 | 30.4 | 0.77 | 0.62 | | Llama 3 | elyza/Llama-3-ELYZA-JP-8B | 60.92 | 39.09 | 7.91 | 7.61 | 8.08 | 8.92 | 7.04 | 0.41 | 0.24 | 4.39 | 1.75 | 0.34 | 17.5 | 0.62 | 0.43 | | Llama 3.1 | allenai/Llama-3.1-Tulu-3.1-8B | 60.86 | 54.21 | 7.42 | 6.84 | 7.69 | 8.61 | 6.52 | 0.51 | 0.22 | 4.39 | 2.90 | 0.40 | 31.3 | 0.82 | 0.63 | | Apache 2.0 | llm-jp/llm-jp-3-7.2b-instruct3 | 56.05 | 23.46 | 7.66 | 6.99 | 7.70 | 9.16 | 6.79 | 0.47 | 0.20 | 3.03 | 1.49 | 0.22 | 5.2 | 0.49 | 0.18 | | Llama 3.1 | meta-llama/Llama-3.1-8B-Instruct | 53.43 | 53.43 | 7.34 | 6.95 | 7.67 | 8.36 | 6.40 | 0.25 | 0.16 | 4.13 | 1.03 | 0.44 | 27.7 | 0.80 | 0.63 | | Llama 3 | shisa-ai/shisa-v1-llama3-8b | 53.08 | 42.80 | 7.17 | 6.40 | 7.50 | 8.31 | 6.48 | 0.23 | 0.09 | 4.20 | 2.24 | 0.36 | 20.2 | 0.63 | 0.52 | | Apache 2.0 | weblab-GENIAC/Tanuki-8B-dpo-v1.0 | 52.25 | 27.04 | 7.10 | 6.97 | 6.58 | 8.40 | 6.46 | 0.23 | 0.17 | 3.67 | 2.02 | 0.24 | 14.4 | 0.38 | 0.32 | | Apache 2.0 | augmxnt/shisa-gamma-7b-v1 | 48.88 | 20.88 | 6.20 | 5.74 | 5.93 | 7.28 | 5.87 | 0.52 | 0.13 | 3.20 | 1.43 | 0.26 | 2.2 | 0.37 | 0.18 |
テストの説明
日本語機能のテストには、LightBlue Shaberi 評価ツールの shisa-ai/shaberi ブランチを使用しました。Shaberi の評価は、以下のモデルで構成される PoLL(大規模言語モデル評価団)によって実行されました。
テスト結果は、統計的に gpt-4-1106-preview
と人間の評価による “ゴールドスタンダード” の評価と同等です。
8K トークン未満のコンテキストウィンドウを持つモデルをテストする際には、必要に応じて動的な RoPE 拡張を使用しました。すべてのテストは、vLLM または SGLang の最新バージョンを使用して実行されました。
モデルの評価を自動化するために、カスタムの “multieval” ツールを開発しました。標準的なベンチマークには以下が含まれます。
- ELYZA Tasks 100
- JA MT-Bench (データセット)
- Rakuda
- Tengu Bench
- llm-jp-eval (v1.4.1)
- MixEval
- LiveBench (2024-11-25)
- IFEval (Lighteval)
- EvalPlus
新しい日本語ベンチマーク
モデル開発の過程で、重要な日本語のダウンストリームタスクでの性能を測定するために、いくつかの新しい評価指標を作成しました。
- shisa-jp-ifeval:IFEval にインスパイアされ、日本語の文法と言語学的な側面の指示遵守能力(クローズド型)を専門的に評価します。
- shisa-jp-rp-bench:Aratako の Japanese-RP-Bench に基づき、日本語のロールプレイングとキャラクター/人物ベースのマルチラウンドダイアログの性能を評価します(大規模言語モデル評価)。
- shisa-jp-tl-bench:日英翻訳能力をテストします(大規模言語モデル評価、BTL ペア比較とロジット変換スコアリングを使用)。
これらのベンチマークは一般的な有用性があると考えており、近い将来にオープンソース化して、日本語の大規模言語モデル研究コミュニティをサポートする予定です。
使用上の提案
すべての獅子神 V2 モデルは、それぞれのベースモデルの チャットテンプレート を継承しており、vLLM と SGLang を使用してテストおよび検証され、正しく推論できることが保証されています。
サンプラースキャンを実行する際に、モデルはほとんどの設定でさまざまな温度パラメータで良好に動作することがわかりました。具体的には、翻訳タスクの場合は、精度を向上させるために低い温度(0.2)を使用することをお勧めします。ロールプレイングやクリエイティブなタスクの場合は、高い温度(例えば 1.0)が良い結果をもたらすようです。言語間のトークンリークを防ぐために、top_p
に 0.9 または min_p
に 0.1 を使用することをお勧めします。
なお、これらのモデルは追加のセキュリティアライメントが行われていないため、多くの場合、ベースモデルのバイアスとセキュリティ特性を引き継いでいます。
データセット
監督微調整(SFT)段階のデータセットには、約 360K のサンプルが含まれ、合計で約 420M の Llama 3 トークンがあります。
- shisa-ai/shisa-v2-sharegpt
- 元の獅子神 V1 の augmxnt/ultra-orca-boros-en-ja-v1 データセットのフィルタリング、再生成、再サンプリングされたバージョンです。
- これは獅子神 V2 の訓練の核心となるデータセットであり、非常に強力なデータセットであることが証明されています。すべての既存の混合/補足データセット(Tulu、Olmo、Rewild、さまざまな Magpie セットなど)よりも性能が優れています。日英データセットが必要な場合は、この新しいバージョンが現在利用可能な最良のデータセットの 1 つであると考えています。
- shisa-ai/rewild-set-deepseek-subset
- Rewild (WildChat) のプロンプトのフィルタリングされたバージョンを日本語に翻訳し、DeepSeek-V3-0324 で応答を生成したものです。
- shisa-ai/magpie-ultra-set
- argilla/magpie-ultra-v1.0 に基づく日本語生成データです。
- shisa-ai/magpie-advanced-questions-set
- Magpie で生成された、さまざまな学術分野の高度な大学レベルのトピックに関する質問です。
- shisa-ai/japan-magpie-set
- Magpie で生成された、日本の経済、歴史、文化、ビジネス慣行に関する質問です。
- shisa-ai/shisa-v2-roleplaying-sft
- さまざまなキャラクター、シナリオ、タイプを含む合成生成されたロールプレイングデータです。
- shisa-ai/translation_expanded_master_set_filtered
- 論文、会話、小説など、幅広い翻訳タスクを含む合成データセットです。
- shisa-ai/shisa-v2-instruction-following-sft
- (Aratako/Magpie-Tanuki-8B-annotated-96k) のプロンプトと一連の指示遵守制約に基づく指示遵守データセットです。
最終的な DPO 混合データセットには、113K のサンプルが含まれ、合計で約 115M の Llama 3 トークンがあります。
- shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
- princeton-nlp/gemma2-ultrafeedback-armorm のバージョンで、
chosen
の応答を DeepSeek-V3-0324 で再生成したものです。 - 驚くべきことに、この比較的小さな英語の DPO アライメントセットだけを使用した場合の性能が、日英の DPO セットや Tulu 3 偏好混合セット のようなはるかに大きなデータセットよりも優れていることがわかりました。
- princeton-nlp/gemma2-ultrafeedback-armorm のバージョンで、
- shisa-ai/shisa-v2-roleplaying-dpo
- UltraFeedback スタイルの評価システムを使用した、ロールプレイング SFT セットの DPO バリエーションです。
- shisa-ai/translation-no-extra-text-dpo-dataset
- モデルが必要ないときに余分な翻訳説明テキストを出力する傾向を減らすための DPO セットです。
- shisa-ai/shisa-v2-instruction-following-dpo
- 指示遵守性能をさらに向上させるための、指示遵守 SFT セットの DPO バリエーションです。
- shisa-ai/politeness-dpo-set
- 日本語の応答の話し方をより良くコントロールするためのデータセットです。
訓練
200 以上のモデルを訓練し、さまざまな変数を実証的にテストしました。ハイパーパラメータやデータ混合のテストの他に、データの並べ替え、多言語固有の並べ替え、カリキュラム学習、多段階訓練、さまざまな形式の自己対戦、偏好調整、最新の強化学習/検証可能な報酬技術なども大量にテストしました。
ここでは、スペースの制限からこれらの教訓を詳細に説明することはできませんが、shisa-v2 ウィキ と Shisa.AI ウェブサイト で関連記事を更新する予定です。
大部分の訓練は、小型の AWS Sagemaker でデプロイされた 4 ノードの H100 Slurm クラスタで行われました。訓練には主に Axolotl、DeepSpeed、Liger Kernels を使用しています。獅子神 V2 の Phi 4 と Llama 3.3 70B バージョンは OpenRLHF を使用して訓練されています。訓練ログは Weights and Biases で公開されています。
謝辞
獅子神 V2 モデルは、Leonard Lin と Adam Lensenmayer(Shisa.AI)によって開発されました。
計算リソースは Ubitus K.K. と METI GENIAC から提供されています。
Meta Llama、Microsoft Research、Mistral AI、Qwen Team がオープンソースコミュニティにモデルを提供してくれたことに感謝します。Unsloth が Phi-4 を llamafied 変換 してくれたことにも感謝します。Tulu チームが詳細な記事を提供し、私たちの質問に迅速に応答してくれたことに感謝します。Axolotl チームの Chanvichet Vong が Axolotl Discord での尽力に感謝します。
また、すべてのオープンソース人工知能の開発者や研究者に感謝します。彼らが公開した研究、ツール、データセットがなければ、私たちの仕事は不可能でした。私たち自身の貢献が、より広いコミュニティをサポートできることを願っています。
特に、Jon Durbin が獅子神 V1 での仕事に感謝します。
開発の詳細や洞察については、獅子神 V2 Github リポジトリ と Shisa.AI ウェブサイト をご覧ください。
1: Llama コミュニティのライセンス契約に基づき、Llama ベースのモデルの正式名称は "Llama 3.1 shisa-v2-llama3.1-8b" および "Llama 3.3 shisa-v2-llama3.3-70b" です



