Shisa V2 - 开源双语通用聊天模型，强化日语任务、兼顾英语交流！

首页

Shisa V2 Unphi4 14b

由 shisa-ai 开发

Shisa V2是由Shisa.AI训练的双语（日语/英语）通用聊天模型，专注于提升日语任务能力的同时保持强大的英语能力。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #日语优化 #双语对话 #高效分词

下载量 62

发布时间 : 4/12/2025

模型简介

基于Unsloth的Phi-4优化版本，专注于日语和英语的文本生成任务，通过改进的训练方案显著提升日语输出质量。

模型特点

双语能力优化

专注于提升日语任务性能的同时保持英语能力，在日语评估中表现优异。

高效训练方案

放弃分词器扩展和持续预训练，专注于优化后训练阶段，采用合成数据驱动方法。

跨模型扩展性

训练方案展现出稳健的扩展性，在不同参数规模的模型上均能提升性能。

开源许可证

采用MIT许可证，便于商业和研究用途。

模型能力

日语文本生成

英语文本生成

双语对话

通用聊天

使用案例

聊天应用

日语聊天机器人

用于构建高质量的日语聊天机器人

在日语会话评估中获得8.50分

双语客服系统

支持日语和英语的客户服务应用

在日语和英语评估中均表现优异

内容生成

日语内容创作

生成高质量的日语文本内容

在ELYZA 100任务中获得8.45分

🚀 Shisa V2

Shisa V2是由Shisa.AI训练的一系列日英双语（JA/EN）通用聊天模型。这些模型旨在在日语任务中表现出色，同时保持强大的英语能力。

自我们最初发布Shisa 7B以来，开源权重语言模型的日语基础能力有了显著提升。新模型拥有更多的日语预训练标记、更高的日语分词器效率，并且整体日语输出质量更好。因此，对于Shisa V2，我们放弃了分词器扩展和成本高昂的持续预训练，而是专注于优化后训练。我们大幅扩展并完善了最初在Shisa 7B模型中开创的合成数据驱动方法，并取得了显著的性能提升。

✨ 主要特性

模型家族概述

Shisa V2家族包含一系列参数规模从7B到70B的模型：

许可证	模型	参数	上下文长度	日语平均得分	英语平均得分
Apache 2.0	shisa-v2-qwen2.5-7b	7B	128K/8K	71.06	54.86
Llama 3.1	shisa-v2-llama3.1-8b¹	8B	128K	70.83	54.75
Apache 2.0	shisa-v2-mistral-nemo-12b	12B	128K	72.83	53.33
MIT	shisa-v2-unphi4-14b	14B	16K	75.89	60.10
Apache 2.0	shisa-v2-qwen2.5-32b	32B	128K/8K	76.97	67.41
Llama 3.3	shisa-v2-llama3.3-70b¹	70B	128K	79.72	67.71

除了根据模型大小调整学习率和修改70B模型的全局批量大小外，所有Shisa V2模型都使用相同的数据集和训练方法进行训练。

虽然我们的大部分开发和调优工作是在Llama 3.1 8B模型上进行的，但在这个过程中我们也进行了一些交叉验证，并且很高兴我们最终的方法在所有评估的模型大小上都显示出了强大的扩展性，提高了日语语言性能。我们优先发布了每个类别中质量最高的开源许可（Apache 2.0和MIT）模型。

性能表现

与各自的基础模型相比，所有Shisa V2模型都展示了改进的日语输出质量：

注意：实际上，我们从unsloth/phi-4进行微调，这是Unsloth对microsoft/phi-4进行Llama化的版本，因为这样可以在Liger Kernel的支持下进行更快的训练，并且总体上使工作更轻松。基准测试结果在误差范围内，因此为了简单起见，我们仅使用microsoft/phi-4模型的结果。

模型名称	日语平均得分	英语平均得分	Shaberi平均得分	ELYZA 100	日语MT基准测试	Rakuda	Tengu	llm-jp-eval	shisa-jp-ifeval	shisa-jp-rp-bench	shisa-jp-tl-bench	MixEval	LiveBench	IFEval	EvalPlus
shisa-ai/shisa-v2-unphi4-14b	75.89	60.10	8.50	8.45	8.84	8.96	7.73	0.62	0.43	4.76	6.79	0.53	40.7	0.67	0.80
microsoft/phi-4	72.47	61.14	8.48	8.49	8.65	9.11	7.68	0.58	0.35	4.55	5.62	0.52	42.1	0.69	0.81

Shisa V2模型在各自的参数规模类别中与其他模型相比表现良好。

许可证	模型	日语平均得分	英语平均得分	Shaberi平均得分	ELYZA 100	日语MT基准测试	Rakuda	Tengu	llm-jp-eval	shisa-jp-ifeval	shisa-jp-rp-bench	shisa-jp-tl-bench	MixEval	LiveBench	IFEval	EvalPlus
MIT	shisa-ai/shisa-v2-unphi4-14b	75.89	60.10	8.50	8.45	8.84	8.96	7.73	0.62	0.43	4.76	6.79	0.53	40.7	0.67	0.80
Gemma	google/gemma-3-12b-it	75.15	62.10	8.48	8.34	8.67	9.02	7.88	0.60	0.35	4.64	7.40	0.44	45.3	0.83	0.76
Apache 2.0	shisa-ai/shisa-v2-mistral-nemo-12b	72.83	53.33	8.46	8.38	8.79	9.06	7.63	0.58	0.31	4.55	6.39	0.39	33.4	0.74	0.68
MIT	microsoft/phi-4	72.47	61.14	8.48	8.49	8.65	9.11	7.68	0.58	0.35	4.55	5.62	0.52	42.1	0.69	0.81
Apache 2.0	cyberagent/Mistral-Nemo-Japanese-Instruct-2408	71.12	48.00	8.28	8.11	8.55	9.21	7.24	0.58	0.26	4.59	6.25	0.34	28.5	0.62	0.67
Apache 2.0	Qwen/Qwen2.5-14B-Instruct	71.02	62.54	8.27	8.15	8.64	8.70	7.59	0.63	0.34	4.51	5.03	0.52	41.4	0.81	0.76
Apache 2.0	mistralai/Mistral-Nemo-Instruct-2407	58.44	48.07	7.68	7.29	8.03	8.68	6.73	0.55	0.13	3.60	2.11	0.31	30.0	0.64	0.68

测试说明

日语功能测试使用了LightBlue Shaberi评估工具的**shisa-ai/shaberi分支进行。Shaberi评分由一个PoLL**（大语言模型评审团）完成，该评审团由以下模型组成：

结果经过统计验证，与gpt-4-1106-preview和人工评审的“黄金标准”评分具有可比性。

在测试上下文窗口小于8K标记的模型时，必要时使用了动态RoPE扩展。所有测试均使用最新版本的vLLM或SGLang进行。

我们开发了一个自定义的“multieval”工具来自动化模型评估。标准基准测试包括：

新的日语基准测试

在模型开发过程中，我们还创建了几个新的评估指标，以帮助我们衡量在重要的日语下游任务上的性能：

shisa-jp-ifeval：受IFEval的启发，但专门评估日语语法和语言学方面的指令遵循能力（封闭式）。
shisa-jp-rp-bench：基于Aratako的Japanese-RP-Bench评估日语角色扮演和基于角色/人物的多轮对话性能（大语言模型评审）。
shisa-jp-tl-bench：测试日英翻译能力（大语言模型评审，通过BTL成对比较和逻辑变换评分）。

我们相信这些基准测试将具有普遍实用性，并计划在不久的将来将其开源，以支持日语大语言模型研究社区。

💻 使用示例

所有Shisa V2模型继承了各自基础模型的聊天模板，并已使用vLLM和SGLang进行了正确推理的测试和验证。

在运行采样器扫描时，我们发现这些模型在大多数设置下的各种温度参数下都能很好地运行。具体来说，对于翻译任务，我们建议使用较低的温度（0.2）以提高准确性。对于角色扮演和创意任务，较高的温度（例如1.0）似乎能得到较好的结果。为了防止跨语言标记泄漏，我们建议使用0.9的top_p或0.1的min_p。

这些模型没有进行额外的安全对齐，因此它们在很大程度上继承了基础模型的偏差和安全特性。

📦 数据集

监督微调（SFT）阶段数据集

由大约360K个样本组成，总计约4.2亿个Llama 3标记：

shisa-ai/shisa-v2-sharegpt
- 这是原始Shisa V1 augmxnt/ultra-orca-boros-en-ja-v1数据集的过滤、重新生成和重新采样版本。
- 这是我们Shisa V2训练的核心数据集，事实证明它是一个非常强大的数据集，性能优于所有现有的混合/附加数据集（Tulu、Olmo、Rewild、各种Magpie集等）。如果您需要一个日英数据集，我们相信这个新版本是目前可用的最佳数据集之一。
shisa-ai/rewild-set-deepseek-subset
- 这是Rewild (WildChat)提示翻译成日语的过滤版本，响应由DeepSeek-V3-0324生成。
shisa-ai/magpie-ultra-set
- 基于argilla/magpie-ultra-v1.0的日语生成数据。
shisa-ai/magpie-advanced-questions-set
- Magpie生成的关于各种学术领域的高级大学水平主题的问题。
shisa-ai/japan-magpie-set
- Magpie生成的关于日本经济、历史以及文化和商业实践的问题。
shisa-ai/shisa-v2-roleplaying-sft
- 合成生成的角色扮演数据，包含各种角色、场景和类型。
shisa-ai/translation_expanded_master_set_filtered
- 一个涉及广泛翻译任务的合成数据集，包括论文、对话和小说。
shisa-ai/shisa-v2-instruction-following-sft
- 一个基于(Aratako/Magpie-Tanuki-8B-annotated-96k)提示和一系列指令遵循约束的指令遵循数据集。

最终DPO混合数据集

由113K个样本组成，总计约1.15亿个Llama 3标记：

shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
- 这是princeton-nlp/gemma2-ultrafeedback-armorm的一个版本，其中chosen响应由DeepSeek-V3-0324重新生成。
- 令人惊讶的是，我们发现仅使用这个相对较小的英语DPO对齐集的性能优于日英DPO集以及像Tulu 3偏好混合这样大得多的数据集。
shisa-ai/shisa-v2-roleplaying-dpo
- 角色扮演SFT集的DPO变体，使用UltraFeedback风格的评分系统。
shisa-ai/translation-no-extra-text-dpo-dataset
- 一个旨在减少模型在不需要时输出额外翻译解释文本倾向的DPO集。
shisa-ai/shisa-v2-instruction-following-dpo
- 指令遵循SFT集的DPO变体，以进一步增强指令遵循性能。
shisa-ai/politeness-dpo-set
- 一个用于更好控制日语响应说话风格的数据集。

🔧 技术细节

训练过程

我们训练了200多个模型，以实证测试各种变量。除了超参数和数据混合测试外，我们还对数据排序、多语言特定排序、课程学习、多阶段训练、各种形式的自我博弈、偏好调整以及一些最新的强化学习/可验证奖励技术进行了大量测试。

这里无法全面讨论这些经验教训，但我们将在即将发布的文章中更新shisa-v2维基和Shisa.AI网站。

我们的大部分训练是在一个小型的AWS Sagemaker部署的4节点H100 Slurm集群上进行的。训练主要使用Axolotl，结合DeepSpeed和Liger Kernels。Shisa V2的Phi 4和Llama 3.3 70B版本使用OpenRLHF进行训练。我们的训练日志可在Weights and Biases上公开获取。

致谢

Shisa V2模型由Leonard Lin和Adam Lensenmayer (Shisa.AI)开发。

计算资源由Ubitus K.K.和METI GENIAC提供。

感谢Meta Llama、Microsoft Research、Mistral AI和Qwen团队向开源社区提供他们的模型，感谢Unsloth对Phi-4进行的Llama化转换，感谢Tulu团队详细的文章和对我们问题的快速响应，以及Axolotl团队的Chanvichet Vong在Axolotl Discord上的不懈努力。

我们也向所有开源AI开发者和研究人员表示感谢，没有他们公开分享的研究、工具和数据集，我们的工作将无法完成。我们希望我们自己的贡献能够进一步支持更广泛的社区。

特别感谢Jon Durbin在Shisa V1上的工作。

有关我们开发和见解的更多详细信息，请访问Shisa V2 Github仓库和Shisa.AI网站。

^{1: 根据Llama社区许可协议，基于Llama的模型的官方名称为“Llama 3.1 shisa-v2-llama3.1-8b”和“Llama 3.3 shisa-v2-llama3.3-70b”}