シーサV2オープンソースのバイリンガルチャットモデル - 無料でデプロイ可能、特に日本語に優れ、英語のコミュニケーションも対応

ホーム

Shisa V2 Mistral Nemo 12b

shisa-aiによって開発

Shisa V2はShisa.AIによってトレーニングされたバイリンガル（日本語/英語）汎用チャットモデルで、日本語タスクの最適化に重点を置きながら英語能力を維持しています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #日本語最適化 #バイリンガル会話 #長文コンテキスト

ダウンロード数 53

リリース時間 : 4/12/2025

モデル概要

Shisa V2はMistral-Nemo-Instruct-2407をベースにした12Bパラメータのバイリンガルモデルで、改良されたトレーニング後段階により日本語出力品質を最適化し、日英バイリンガル会話やタスク処理に適しています。

モデル特徴

バイリンガル最適化

日本語タスクに特化して最適化されつつ、強力な英語能力を保持

高品質な日本語出力

改良されたトレーニング後段階により日本語生成品質を大幅に向上

広範な評価基準

複数の日本語専用ベンチマークテストで優れたパフォーマンス

柔軟な推論設定

翻訳、クリエイティブなど様々なタスクニーズに応じた温度設定をサポート

モデル能力

日本語テキスト生成

英語テキスト生成

日英翻訳

ロールプレイ会話

指示追従

マルチターン会話

使用事例

言語サービス

日英翻訳

高品質な日英双方向翻訳サービス

shisa-jp-tl-benchベンチマークで6.39点を獲得

会話システム

日本語チャットボット

自然で流暢な日本語会話体験

雑談評価で8.46点を獲得

ロールプレイ会話

多様なロールプレイシナリオをサポート

shisa-jp-rp-bench評価で4.55点を獲得

教育

日本語学習支援

学習者が日本語会話やライティングを練習するのを支援

🚀 Shisa V2

Shisa V2は、Shisa.AIによって開発された、日本語と英語（JA/EN）のバイリンガル汎用チャットモデルのファミリーです。これらのモデルは、英語の能力を維持しながら、日本語のタスクでも優れた性能を発揮することを目指しています。

当初のShisa 7Bのリリース以来、オープンウェイト言語モデルの日本語の基本性能は大幅に向上しています。新しいモデルは、より多くの日本語事前学習トークンを持ち、JAトークナイザーの効率が高く、全体的に質の高い日本語出力を提供します。そのため、Shisa V2では、トークナイザーの拡張とコストのかかる継続的な事前学習を避け、事後学習の最適化に専念しました。元のShisa 7Bモデルで開発された合成データ駆動型アプローチを大幅に拡張し、改良し、大幅な性能向上を達成しました。

✨ 主な機能

モデルファミリーの概要

Shisa V2ファミリーは、7Bから70Bのパラメータサイズの一連のモデルで構成されています。

ライセンス	モデル名	パラメータ	コンテキスト長	JA平均	EN平均
Apache 2.0	shisa-v2-qwen2.5-7b	7B	128K/8K	71.06	54.86
Llama 3.1	shisa-v2-llama3.1-8b¹	8B	128K	70.83	54.75
Apache 2.0	shisa-v2-mistral-nemo-12b	12B	128K	72.83	53.33
MIT	shisa-v2-unphi4-14b	14B	16K	75.89	60.10
Apache 2.0	shisa-v2-qwen2.5-32b	32B	128K/8K	76.97	67.41
Llama 3.3	shisa-v2-llama3.3-70b¹	70B	128K	79.72	67.71

これらのShisa V2モデルは、モデルサイズに応じて学習率をスケーリングし、70Bモデルのグローバルバッチサイズを変更することを除いて、すべて同じデータセットと学習方法を使用して学習されました。

開発とチューニングの大部分はLlama 3.1 8Bモデルで行われましたが、この過程でいくつかの交差検証も行い、最終的な方法がすべての評価されたモデルサイズで日本語の性能を向上させることが確認されました。各クラスサイズで最高品質のオープンライセンス（Apache 2.0とMIT）のモデルを優先的にリリースしています。

性能

すべてのShisa V2モデルは、それぞれのベースモデルと比較して、日本語の出力品質が向上しています。

| モデル名 | JA平均 | EN平均 | Shaberi平均 | ELYZA 100 | JA MT Bench | Rakuda | Tengu | llm-jp-eval | shisa-jp-ifeval | shisa-jp-rp-bench | shisa-jp-tl-bench | MixEval | LiveBench | IFEval | EvalPlus | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | shisa-ai/shisa-v2-mistral-nemo-12b | 72.83 | 53.33 | 8.46 | 8.38 | 8.79 | 9.06 | 7.63 | 0.58 | 0.31 | 4.55 | 6.39 | 0.39 | 33.4 | 0.74 | 0.68 | | mistralai/Mistral-Nemo-Instruct-2407 | 58.44 | 48.07 | 7.68 | 7.29 | 8.03 | 8.68 | 6.73 | 0.55 | 0.13 | 3.60 | 2.11 | 0.31 | 30.0 | 0.64 | 0.68 |

Shisa V2モデルは、それぞれのクラスサイズの他のモデルと比較しても良好な性能を示しています。

ライセンス	モデル名	JA平均	EN平均	Shaberi平均	ELYZA 100	JA MT Bench	Rakuda	Tengu	llm-jp-eval	shisa-jp-ifeval	shisa-jp-rp-bench	shisa-jp-tl-bench	MixEval	LiveBench	IFEval	EvalPlus
MIT	shisa-ai/shisa-v2-unphi4-14b	75.89	60.10	8.50	8.45	8.84	8.96	7.73	0.62	0.43	4.76	6.79	0.53	40.7	0.67	0.80
Gemma	google/gemma-3-12b-it	75.15	62.10	8.48	8.34	8.67	9.02	7.88	0.60	0.35	4.64	7.40	0.44	45.3	0.83	0.76
Apache 2.0	shisa-ai/shisa-v2-mistral-nemo-12b	72.83	53.33	8.46	8.38	8.79	9.06	7.63	0.58	0.31	4.55	6.39	0.39	33.4	0.74	0.68
MIT	microsoft/phi-4	72.47	61.14	8.48	8.49	8.65	9.11	7.68	0.58	0.35	4.55	5.62	0.52	42.1	0.69	0.81
Apache 2.0	cyberagent/Mistral-Nemo-Japanese-Instruct-2408	71.12	48.00	8.28	8.11	8.55	9.21	7.24	0.58	0.26	4.59	6.25	0.34	28.5	0.62	0.67
Apache 2.0	Qwen/Qwen2.5-14B-Instruct	71.02	62.54	8.27	8.15	8.64	8.70	7.59	0.63	0.34	4.51	5.03	0.52	41.4	0.81	0.76
Apache 2.0	mistralai/Mistral-Nemo-Instruct-2407	58.44	48.07	7.68	7.29	8.03	8.68	6.73	0.55	0.13	3.60	2.11	0.31	30.0	0.64	0.68

テストに関する注意事項

日本語の機能テストは、LightBlue Shaberi評価ハーネスの**shisa-ai/shaberiフォークを使用して行われました。Shaberiの評価は、以下のモデルから構成されるPoLL**（LLM陪審）を使用して行われました。

結果は、gpt-4-1106-previewと人間によるレビューの「ゴールドスタンダード」評価の両方と統計的に比較可能であることが検証されました。

8Kトークン未満のコンテキストウィンドウを持つモデルのテストに必要な場合、Dynamic RoPE拡張が使用されました。すべてのテストは、vLLMまたはSGLangの最新バージョンを使用して行われました。

独自の「multieval」ハーネスを開発し、モデル評価を自動化しています。標準的なベンチマークには以下が含まれます。

新しい日本語ベンチマーク

モデル開発の過程で、重要な日本語の下流タスクの性能を測定するために、いくつかの新しい評価を作成しました。

shisa-jp-ifeval：IFEvalにインスパイアされ、日本語の文法と言語学に特化した命令追従能力を評価します（クローズド形式）。
shisa-jp-rp-bench：AratakoのJapanese-RP-Benchに基づいて、日本語のロールプレイとキャラクター/ペルソナベースのマルチターン会話の性能を評価します（LLM評価）。
shisa-jp-tl-bench：日本語と英語の翻訳能力をテストします（LLM評価、BTLペアワイズ比較とロジスティック変換スコアリング）。

これらのベンチマークは一般的に有用であると考えており、近い将来にオープンソース化して、日本語のLLM研究コミュニティをサポートする予定です。

💻 使用例

基本的な使用法

すべてのShisa V2モデルは、それぞれのベースモデルのチャットテンプレートを継承しており、vLLMとSGLangの両方で適切な推論が行われることがテストおよび検証されています。

サンプラーのスイープを実行した結果、ほとんどの設定で様々な温度でモデルが良好に動作することがわかりました。特に翻訳タスクの場合は、精度を上げるために低い温度（0.2）を推奨します。ロールプレイやクリエイティブなタスクの場合は、高い温度（例えば1.0）が良好な結果をもたらすようです。クロス言語トークンの漏洩を防ぐために、top_pを0.9またはmin_pを0.1に設定することを推奨します。

これらのモデルには追加の安全性調整は行われていないため、主にベースモデルのバイアスと安全性プロファイルを引き継ぐことになります。

📚 詳細ドキュメント

データセット

教師あり微調整（SFT）段階のデータセットは、約360Kのサンプルで構成され、合計で約420MのLlama 3トークンを含んでいます。

shisa-ai/shisa-v2-sharegpt
- 元のShisa V1のaugmxnt/ultra-orca-boros-en-ja-v1データセットをフィルタリング、再生成、再サンプリングしたバージョンです。
- これはShisa V2の学習の基盤となり、非常に堅牢なデータセットであることが証明され、すべての既存のミックス/追加（Tulu、Olmo、Rewild、さまざまなMagpieセットなど）を上回っています。JA/ENデータセットが必要な場合は、この新しいバージョンが現在利用可能な中で最良のものの1つであると考えています。
shisa-ai/rewild-set-deepseek-subset
- Rewild (WildChat)のプロンプトを日本語に翻訳し、DeepSeek-V3-0324によって応答を生成したフィルタリングされたバージョンです。
shisa-ai/magpie-ultra-set
- argilla/magpie-ultra-v1.0に基づく日本語の生成データです。
shisa-ai/magpie-advanced-questions-set
- Magpieによって生成された、さまざまな学術分野の高度な大学レベルのトピックに関する質問です。
shisa-ai/japan-magpie-set
- Magpieによって生成された、日本の経済、歴史、文化、ビジネス慣行に関する質問です。
shisa-ai/shisa-v2-roleplaying-sft
- 幅広いキャラクター、状況、ジャンルを持つ合成的に生成されたロールプレイングデータです。
shisa-ai/translation_expanded_master_set_filtered
- エッセイ、会話、フィクションなど、幅広い翻訳タスクを含む合成データセットです。
shisa-ai/shisa-v2-instruction-following-sft
- (Aratako/Magpie-Tanuki-8B-annotated-96k)のプロンプトと命令追従制約のリストに基づく命令追従データセットです。

最終的なDPOミックスは、113Kのサンプルで構成され、合計で約115MのLlama 3トークンを含んでいます。

shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
- princeton-nlp/gemma2-ultrafeedback-armormのバージョンで、chosenの応答がDeepSeek-V3-0324によって再生成されています。
- 驚くべきことに、この比較的小さな英語のみのDPOアライメントセットを使用することで、JA/ENのDPOセットや、Tulu 3 preference mixtureのようなはるかに大きなセットを上回る結果が得られました。
shisa-ai/shisa-v2-roleplaying-dpo
- UltraFeedbackスタイルの評価システムを使用するロールプレイングSFTセットのDPOバリアントです。
shisa-ai/translation-no-extra-text-dpo-dataset
- 翻訳時に不要な説明テキストを出力するモデルの傾向を減らすことを目的としたDPOセットです。
shisa-ai/shisa-v2-instruction-following-dpo
- 命令追従性能をさらに向上させるための命令追従SFTセットのDPOバリアントです。
shisa-ai/politeness-dpo-set
- 日本語の応答のスタイルをよりコントロール可能にするためのセットです。

学習

200以上のモデルを学習させ、幅広い変数を実証的にテストしました。ハイパーパラメータとデータミックスのテスト以外にも、データの順序付け、多言語固有の順序付け、カリキュラム学習、多段階学習、さまざまな形式のセルフプレイ、嗜好チューニング、および最新のRL/検証可能な報酬技術のいくつかに関する多数のテストも実行しました。

これらの学習内容の完全な議論はここでは範囲外ですが、shisa-v2 wikiとShisa.AIウェブサイトを更新して、今後の記事で紹介する予定です。

学習の大部分は、AWS Sagemakerでデプロイされた小規模な4ノードH100スラームクラスターで行われました。学習は主にAxolotlとDeepSpeed、Liger Kernelsを使用して行われました。Shisa V2のPhi 4とLlama 3.3 70Bバージョンは、OpenRLHFを使用して学習されました。学習ログはWeights and Biasesで公開されています。

クレジット

Shisa V2モデルは、Leonard LinとAdam Lensenmayer（Shisa.AI）によって開発されました。

コンピューティングリソースは、Ubitus K.K.とMETI GENIACによって提供されました。

Meta Llama、Microsoft Research、Mistral AI、およびQwen Teamがオープンソースコミュニティにモデルを提供してくれたこと、UnslothがPhi-4のllamafied変換を行ってくれたこと、Tuluチームが詳細な記事と質問に対する迅速な回答を提供してくれたこと、およびAxolotlチームのChanvichet VongがAxolotl Discordでの献身的な活動を行ってくれたことに感謝します。

また、すべてのオープンソースAI開発者と研究者に感謝します。彼らの公開された研究、ツール、データセットがなければ、私たちの仕事は不可能でした。私たち自身の貢献が、より広いコミュニティをさらにサポートすることを願っています。

Shisa V1に関する仕事を行ってくれたJon Durbinに特別な感謝を申し上げます。

開発と洞察の詳細については、Shisa V2のGithubリポジトリとShisa.AIウェブサイトをご覧ください。

^{1: Llamaコミュニティライセンス契約により、Llamaベースのモデルの正式名称は「Llama 3.1 shisa-v2-llama3.1-8b」および「Llama 3.3 shisa-v2-llama3.3-70b」です。}