モデル概要
モデル特徴
モデル能力
使用事例
🚀 Shisa V2
Shisa V2は、Shisa.AIによって開発された、日本語と英語(JA/EN)のバイリンガル汎用チャットモデルのファミリーです。これらのモデルは、英語の能力を維持しながら、日本語のタスクでも優れた性能を発揮することを目指しています。
当初のShisa 7Bのリリース以来、オープンウェイト言語モデルの日本語の基本性能は大幅に向上しています。新しいモデルは、より多くの日本語事前学習トークンを持ち、JAトークナイザーの効率が高く、全体的に質の高い日本語出力を提供します。そのため、Shisa V2では、トークナイザーの拡張とコストのかかる継続的な事前学習を避け、事後学習の最適化に専念しました。元のShisa 7Bモデルで開発された合成データ駆動型アプローチを大幅に拡張し、改良し、大幅な性能向上を達成しました。
✨ 主な機能
モデルファミリーの概要
Shisa V2ファミリーは、7Bから70Bのパラメータサイズの一連のモデルで構成されています。
ライセンス | モデル名 | パラメータ | コンテキスト長 | JA平均 | EN平均 |
---|---|---|---|---|---|
Apache 2.0 | shisa-v2-qwen2.5-7b | 7B | 128K/8K | 71.06 | 54.86 |
Llama 3.1 | shisa-v2-llama3.1-8b1 | 8B | 128K | 70.83 | 54.75 |
Apache 2.0 | shisa-v2-mistral-nemo-12b | 12B | 128K | 72.83 | 53.33 |
MIT | shisa-v2-unphi4-14b | 14B | 16K | 75.89 | 60.10 |
Apache 2.0 | shisa-v2-qwen2.5-32b | 32B | 128K/8K | 76.97 | 67.41 |
Llama 3.3 | shisa-v2-llama3.3-70b1 | 70B | 128K | 79.72 | 67.71 |
これらのShisa V2モデルは、モデルサイズに応じて学習率をスケーリングし、70Bモデルのグローバルバッチサイズを変更することを除いて、すべて同じデータセットと学習方法を使用して学習されました。
開発とチューニングの大部分はLlama 3.1 8Bモデルで行われましたが、この過程でいくつかの交差検証も行い、最終的な方法がすべての評価されたモデルサイズで日本語の性能を向上させることが確認されました。各クラスサイズで最高品質のオープンライセンス(Apache 2.0とMIT)のモデルを優先的にリリースしています。
性能
すべてのShisa V2モデルは、それぞれのベースモデルと比較して、日本語の出力品質が向上しています。
| モデル名 | JA平均 | EN平均 | Shaberi平均 | ELYZA 100 | JA MT Bench | Rakuda | Tengu | llm-jp-eval | shisa-jp-ifeval | shisa-jp-rp-bench | shisa-jp-tl-bench | MixEval | LiveBench | IFEval | EvalPlus | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | shisa-ai/shisa-v2-mistral-nemo-12b | 72.83 | 53.33 | 8.46 | 8.38 | 8.79 | 9.06 | 7.63 | 0.58 | 0.31 | 4.55 | 6.39 | 0.39 | 33.4 | 0.74 | 0.68 | | mistralai/Mistral-Nemo-Instruct-2407 | 58.44 | 48.07 | 7.68 | 7.29 | 8.03 | 8.68 | 6.73 | 0.55 | 0.13 | 3.60 | 2.11 | 0.31 | 30.0 | 0.64 | 0.68 |
Shisa V2モデルは、それぞれのクラスサイズの他のモデルと比較しても良好な性能を示しています。
ライセンス | モデル名 | JA平均 | EN平均 | Shaberi平均 | ELYZA 100 | JA MT Bench | Rakuda | Tengu | llm-jp-eval | shisa-jp-ifeval | shisa-jp-rp-bench | shisa-jp-tl-bench | MixEval | LiveBench | IFEval | EvalPlus |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
MIT | shisa-ai/shisa-v2-unphi4-14b | 75.89 | 60.10 | 8.50 | 8.45 | 8.84 | 8.96 | 7.73 | 0.62 | 0.43 | 4.76 | 6.79 | 0.53 | 40.7 | 0.67 | 0.80 |
Gemma | google/gemma-3-12b-it | 75.15 | 62.10 | 8.48 | 8.34 | 8.67 | 9.02 | 7.88 | 0.60 | 0.35 | 4.64 | 7.40 | 0.44 | 45.3 | 0.83 | 0.76 |
Apache 2.0 | shisa-ai/shisa-v2-mistral-nemo-12b | 72.83 | 53.33 | 8.46 | 8.38 | 8.79 | 9.06 | 7.63 | 0.58 | 0.31 | 4.55 | 6.39 | 0.39 | 33.4 | 0.74 | 0.68 |
MIT | microsoft/phi-4 | 72.47 | 61.14 | 8.48 | 8.49 | 8.65 | 9.11 | 7.68 | 0.58 | 0.35 | 4.55 | 5.62 | 0.52 | 42.1 | 0.69 | 0.81 |
Apache 2.0 | cyberagent/Mistral-Nemo-Japanese-Instruct-2408 | 71.12 | 48.00 | 8.28 | 8.11 | 8.55 | 9.21 | 7.24 | 0.58 | 0.26 | 4.59 | 6.25 | 0.34 | 28.5 | 0.62 | 0.67 |
Apache 2.0 | Qwen/Qwen2.5-14B-Instruct | 71.02 | 62.54 | 8.27 | 8.15 | 8.64 | 8.70 | 7.59 | 0.63 | 0.34 | 4.51 | 5.03 | 0.52 | 41.4 | 0.81 | 0.76 |
Apache 2.0 | mistralai/Mistral-Nemo-Instruct-2407 | 58.44 | 48.07 | 7.68 | 7.29 | 8.03 | 8.68 | 6.73 | 0.55 | 0.13 | 3.60 | 2.11 | 0.31 | 30.0 | 0.64 | 0.68 |
テストに関する注意事項
日本語の機能テストは、LightBlue Shaberi評価ハーネスの**shisa-ai/shaberiフォークを使用して行われました。Shaberiの評価は、以下のモデルから構成されるPoLL**(LLM陪審)を使用して行われました。
結果は、gpt-4-1106-preview
と人間によるレビューの「ゴールドスタンダード」評価の両方と統計的に比較可能であることが検証されました。
8Kトークン未満のコンテキストウィンドウを持つモデルのテストに必要な場合、Dynamic RoPE拡張が使用されました。すべてのテストは、vLLMまたはSGLangの最新バージョンを使用して行われました。
独自の「multieval」ハーネスを開発し、モデル評価を自動化しています。標準的なベンチマークには以下が含まれます。
- ELYZA Tasks 100
- JA MT-Bench (データセット)
- Rakuda
- Tengu Bench
- llm-jp-eval (v1.4.1)
- MixEval
- LiveBench (2024-11-25)
- IFEval (Lighteval)
- EvalPlus
新しい日本語ベンチマーク
モデル開発の過程で、重要な日本語の下流タスクの性能を測定するために、いくつかの新しい評価を作成しました。
- shisa-jp-ifeval:IFEvalにインスパイアされ、日本語の文法と言語学に特化した命令追従能力を評価します(クローズド形式)。
- shisa-jp-rp-bench:AratakoのJapanese-RP-Benchに基づいて、日本語のロールプレイとキャラクター/ペルソナベースのマルチターン会話の性能を評価します(LLM評価)。
- shisa-jp-tl-bench:日本語と英語の翻訳能力をテストします(LLM評価、BTLペアワイズ比較とロジスティック変換スコアリング)。
これらのベンチマークは一般的に有用であると考えており、近い将来にオープンソース化して、日本語のLLM研究コミュニティをサポートする予定です。
💻 使用例
基本的な使用法
すべてのShisa V2モデルは、それぞれのベースモデルのチャットテンプレートを継承しており、vLLMとSGLangの両方で適切な推論が行われることがテストおよび検証されています。
サンプラーのスイープを実行した結果、ほとんどの設定で様々な温度でモデルが良好に動作することがわかりました。特に翻訳タスクの場合は、精度を上げるために低い温度(0.2)を推奨します。ロールプレイやクリエイティブなタスクの場合は、高い温度(例えば1.0)が良好な結果をもたらすようです。クロス言語トークンの漏洩を防ぐために、top_pを0.9またはmin_pを0.1に設定することを推奨します。
これらのモデルには追加の安全性調整は行われていないため、主にベースモデルのバイアスと安全性プロファイルを引き継ぐことになります。
📚 詳細ドキュメント
データセット
教師あり微調整(SFT)段階のデータセットは、約360Kのサンプルで構成され、合計で約420MのLlama 3トークンを含んでいます。
- shisa-ai/shisa-v2-sharegpt
- 元のShisa V1のaugmxnt/ultra-orca-boros-en-ja-v1データセットをフィルタリング、再生成、再サンプリングしたバージョンです。
- これはShisa V2の学習の基盤となり、非常に堅牢なデータセットであることが証明され、すべての既存のミックス/追加(Tulu、Olmo、Rewild、さまざまなMagpieセットなど)を上回っています。JA/ENデータセットが必要な場合は、この新しいバージョンが現在利用可能な中で最良のものの1つであると考えています。
- shisa-ai/rewild-set-deepseek-subset
- Rewild (WildChat)のプロンプトを日本語に翻訳し、DeepSeek-V3-0324によって応答を生成したフィルタリングされたバージョンです。
- shisa-ai/magpie-ultra-set
- argilla/magpie-ultra-v1.0に基づく日本語の生成データです。
- shisa-ai/magpie-advanced-questions-set
- Magpieによって生成された、さまざまな学術分野の高度な大学レベルのトピックに関する質問です。
- shisa-ai/japan-magpie-set
- Magpieによって生成された、日本の経済、歴史、文化、ビジネス慣行に関する質問です。
- shisa-ai/shisa-v2-roleplaying-sft
- 幅広いキャラクター、状況、ジャンルを持つ合成的に生成されたロールプレイングデータです。
- shisa-ai/translation_expanded_master_set_filtered
- エッセイ、会話、フィクションなど、幅広い翻訳タスクを含む合成データセットです。
- shisa-ai/shisa-v2-instruction-following-sft
- (Aratako/Magpie-Tanuki-8B-annotated-96k)のプロンプトと命令追従制約のリストに基づく命令追従データセットです。
最終的なDPOミックスは、113Kのサンプルで構成され、合計で約115MのLlama 3トークンを含んでいます。
- shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
- princeton-nlp/gemma2-ultrafeedback-armormのバージョンで、
chosen
の応答がDeepSeek-V3-0324によって再生成されています。 - 驚くべきことに、この比較的小さな英語のみのDPOアライメントセットを使用することで、JA/ENのDPOセットや、Tulu 3 preference mixtureのようなはるかに大きなセットを上回る結果が得られました。
- princeton-nlp/gemma2-ultrafeedback-armormのバージョンで、
- shisa-ai/shisa-v2-roleplaying-dpo
- UltraFeedbackスタイルの評価システムを使用するロールプレイングSFTセットのDPOバリアントです。
- shisa-ai/translation-no-extra-text-dpo-dataset
- 翻訳時に不要な説明テキストを出力するモデルの傾向を減らすことを目的としたDPOセットです。
- shisa-ai/shisa-v2-instruction-following-dpo
- 命令追従性能をさらに向上させるための命令追従SFTセットのDPOバリアントです。
- shisa-ai/politeness-dpo-set
- 日本語の応答のスタイルをよりコントロール可能にするためのセットです。
学習
200以上のモデルを学習させ、幅広い変数を実証的にテストしました。ハイパーパラメータとデータミックスのテスト以外にも、データの順序付け、多言語固有の順序付け、カリキュラム学習、多段階学習、さまざまな形式のセルフプレイ、嗜好チューニング、および最新のRL/検証可能な報酬技術のいくつかに関する多数のテストも実行しました。
これらの学習内容の完全な議論はここでは範囲外ですが、shisa-v2 wikiとShisa.AIウェブサイトを更新して、今後の記事で紹介する予定です。
学習の大部分は、AWS Sagemakerでデプロイされた小規模な4ノードH100スラームクラスターで行われました。学習は主にAxolotlとDeepSpeed、Liger Kernelsを使用して行われました。Shisa V2のPhi 4とLlama 3.3 70Bバージョンは、OpenRLHFを使用して学習されました。学習ログはWeights and Biasesで公開されています。
クレジット
Shisa V2モデルは、Leonard LinとAdam Lensenmayer(Shisa.AI)によって開発されました。
コンピューティングリソースは、Ubitus K.K.とMETI GENIACによって提供されました。
Meta Llama、Microsoft Research、Mistral AI、およびQwen Teamがオープンソースコミュニティにモデルを提供してくれたこと、UnslothがPhi-4のllamafied変換を行ってくれたこと、Tuluチームが詳細な記事と質問に対する迅速な回答を提供してくれたこと、およびAxolotlチームのChanvichet VongがAxolotl Discordでの献身的な活動を行ってくれたことに感謝します。
また、すべてのオープンソースAI開発者と研究者に感謝します。彼らの公開された研究、ツール、データセットがなければ、私たちの仕事は不可能でした。私たち自身の貢献が、より広いコミュニティをさらにサポートすることを願っています。
Shisa V1に関する仕事を行ってくれたJon Durbinに特別な感謝を申し上げます。
開発と洞察の詳細については、Shisa V2のGithubリポジトリとShisa.AIウェブサイトをご覧ください。
1: Llamaコミュニティライセンス契約により、Llamaベースのモデルの正式名称は「Llama 3.1 shisa-v2-llama3.1-8b」および「Llama 3.3 shisa-v2-llama3.3-70b」です。
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下でライセンスされています。



