Shisa V2 - 開源雙語通用聊天模型，強化日語任務、兼顧英語交流！

首頁

Shisa V2 Unphi4 14b

由shisa-ai開發

Shisa V2是由Shisa.AI訓練的雙語（日語/英語）通用聊天模型，專注於提升日語任務能力的同時保持強大的英語能力。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #日語優化 #雙語對話 #高效分詞

下載量 62

發布時間 : 4/12/2025

模型概述

基於Unsloth的Phi-4優化版本，專注於日語和英語的文本生成任務，通過改進的訓練方案顯著提升日語輸出質量。

模型特點

雙語能力優化

專注於提升日語任務性能的同時保持英語能力，在日語評估中表現優異。

高效訓練方案

放棄分詞器擴展和持續預訓練，專注於優化後訓練階段，採用合成數據驅動方法。

跨模型擴展性

訓練方案展現出穩健的擴展性，在不同參數規模的模型上均能提升性能。

開源許可證

採用MIT許可證，便於商業和研究用途。

模型能力

日語文本生成

英語文本生成

雙語對話

通用聊天

使用案例

聊天應用

日語聊天機器人

用於構建高質量的日語聊天機器人

在日語會話評估中獲得8.50分

雙語客服系統

支持日語和英語的客戶服務應用

在日語和英語評估中均表現優異

內容生成

日語內容創作

生成高質量的日語文本內容

在ELYZA 100任務中獲得8.45分

🚀 Shisa V2

Shisa V2是由Shisa.AI訓練的一系列日英雙語（JA/EN）通用聊天模型。這些模型旨在在日語任務中表現出色，同時保持強大的英語能力。

自我們最初發布Shisa 7B以來，開源權重語言模型的日語基礎能力有了顯著提升。新模型擁有更多的日語預訓練標記、更高的日語分詞器效率，並且整體日語輸出質量更好。因此，對於Shisa V2，我們放棄了分詞器擴展和成本高昂的持續預訓練，而是專注於優化後訓練。我們大幅擴展並完善了最初在Shisa 7B模型中開創的合成數據驅動方法，並取得了顯著的性能提升。

✨ 主要特性

模型家族概述

Shisa V2家族包含一系列參數規模從7B到70B的模型：

許可證	模型	參數	上下文長度	日語平均得分	英語平均得分
Apache 2.0	shisa-v2-qwen2.5-7b	7B	128K/8K	71.06	54.86
Llama 3.1	shisa-v2-llama3.1-8b¹	8B	128K	70.83	54.75
Apache 2.0	shisa-v2-mistral-nemo-12b	12B	128K	72.83	53.33
MIT	shisa-v2-unphi4-14b	14B	16K	75.89	60.10
Apache 2.0	shisa-v2-qwen2.5-32b	32B	128K/8K	76.97	67.41
Llama 3.3	shisa-v2-llama3.3-70b¹	70B	128K	79.72	67.71

除了根據模型大小調整學習率和修改70B模型的全局批量大小外，所有Shisa V2模型都使用相同的數據集和訓練方法進行訓練。

雖然我們的大部分開發和調優工作是在Llama 3.1 8B模型上進行的，但在這個過程中我們也進行了一些交叉驗證，並且很高興我們最終的方法在所有評估的模型大小上都顯示出了強大的擴展性，提高了日語語言性能。我們優先發布了每個類別中質量最高的開源許可（Apache 2.0和MIT）模型。

性能表現

與各自的基礎模型相比，所有Shisa V2模型都展示了改進的日語輸出質量：

注意：實際上，我們從unsloth/phi-4進行微調，這是Unsloth對microsoft/phi-4進行Llama化的版本，因為這樣可以在Liger Kernel的支持下進行更快的訓練，並且總體上使工作更輕鬆。基準測試結果在誤差範圍內，因此為了簡單起見，我們僅使用microsoft/phi-4模型的結果。

模型名稱	日語平均得分	英語平均得分	Shaberi平均得分	ELYZA 100	日語MT基準測試	Rakuda	Tengu	llm-jp-eval	shisa-jp-ifeval	shisa-jp-rp-bench	shisa-jp-tl-bench	MixEval	LiveBench	IFEval	EvalPlus
shisa-ai/shisa-v2-unphi4-14b	75.89	60.10	8.50	8.45	8.84	8.96	7.73	0.62	0.43	4.76	6.79	0.53	40.7	0.67	0.80
microsoft/phi-4	72.47	61.14	8.48	8.49	8.65	9.11	7.68	0.58	0.35	4.55	5.62	0.52	42.1	0.69	0.81

Shisa V2模型在各自的參數規模類別中與其他模型相比表現良好。

許可證	模型	日語平均得分	英語平均得分	Shaberi平均得分	ELYZA 100	日語MT基準測試	Rakuda	Tengu	llm-jp-eval	shisa-jp-ifeval	shisa-jp-rp-bench	shisa-jp-tl-bench	MixEval	LiveBench	IFEval	EvalPlus
MIT	shisa-ai/shisa-v2-unphi4-14b	75.89	60.10	8.50	8.45	8.84	8.96	7.73	0.62	0.43	4.76	6.79	0.53	40.7	0.67	0.80
Gemma	google/gemma-3-12b-it	75.15	62.10	8.48	8.34	8.67	9.02	7.88	0.60	0.35	4.64	7.40	0.44	45.3	0.83	0.76
Apache 2.0	shisa-ai/shisa-v2-mistral-nemo-12b	72.83	53.33	8.46	8.38	8.79	9.06	7.63	0.58	0.31	4.55	6.39	0.39	33.4	0.74	0.68
MIT	microsoft/phi-4	72.47	61.14	8.48	8.49	8.65	9.11	7.68	0.58	0.35	4.55	5.62	0.52	42.1	0.69	0.81
Apache 2.0	cyberagent/Mistral-Nemo-Japanese-Instruct-2408	71.12	48.00	8.28	8.11	8.55	9.21	7.24	0.58	0.26	4.59	6.25	0.34	28.5	0.62	0.67
Apache 2.0	Qwen/Qwen2.5-14B-Instruct	71.02	62.54	8.27	8.15	8.64	8.70	7.59	0.63	0.34	4.51	5.03	0.52	41.4	0.81	0.76
Apache 2.0	mistralai/Mistral-Nemo-Instruct-2407	58.44	48.07	7.68	7.29	8.03	8.68	6.73	0.55	0.13	3.60	2.11	0.31	30.0	0.64	0.68

測試說明

日語功能測試使用了LightBlue Shaberi評估工具的**shisa-ai/shaberi分支進行。Shaberi評分由一個PoLL**（大語言模型評審團）完成，該評審團由以下模型組成：

結果經過統計驗證，與gpt-4-1106-preview和人工評審的“黃金標準”評分具有可比性。

在測試上下文窗口小於8K標記的模型時，必要時使用了動態RoPE擴展。所有測試均使用最新版本的vLLM或SGLang進行。

我們開發了一個自定義的“multieval”工具來自動化模型評估。標準基準測試包括：

新的日語基準測試

在模型開發過程中，我們還創建了幾個新的評估指標，以幫助我們衡量在重要的日語下游任務上的性能：

shisa-jp-ifeval：受IFEval的啟發，但專門評估日語語法和語言學方面的指令遵循能力（封閉式）。
shisa-jp-rp-bench：基於Aratako的Japanese-RP-Bench評估日語角色扮演和基於角色/人物的多輪對話性能（大語言模型評審）。
shisa-jp-tl-bench：測試日英翻譯能力（大語言模型評審，通過BTL成對比較和邏輯變換評分）。

我們相信這些基準測試將具有普遍實用性，並計劃在不久的將來將其開源，以支持日語大語言模型研究社區。

💻 使用示例

所有Shisa V2模型繼承了各自基礎模型的聊天模板，並已使用vLLM和SGLang進行了正確推理的測試和驗證。

在運行採樣器掃描時，我們發現這些模型在大多數設置下的各種溫度參數下都能很好地運行。具體來說，對於翻譯任務，我們建議使用較低的溫度（0.2）以提高準確性。對於角色扮演和創意任務，較高的溫度（例如1.0）似乎能得到較好的結果。為了防止跨語言標記洩漏，我們建議使用0.9的top_p或0.1的min_p。

這些模型沒有進行額外的安全對齊，因此它們在很大程度上繼承了基礎模型的偏差和安全特性。

📦 數據集

監督微調（SFT）階段數據集

由大約360K個樣本組成，總計約4.2億個Llama 3標記：

shisa-ai/shisa-v2-sharegpt
- 這是原始Shisa V1 augmxnt/ultra-orca-boros-en-ja-v1數據集的過濾、重新生成和重新採樣版本。
- 這是我們Shisa V2訓練的核心數據集，事實證明它是一個非常強大的數據集，性能優於所有現有的混合/附加數據集（Tulu、Olmo、Rewild、各種Magpie集等）。如果您需要一個日英數據集，我們相信這個新版本是目前可用的最佳數據集之一。
shisa-ai/rewild-set-deepseek-subset
- 這是Rewild (WildChat)提示翻譯成日語的過濾版本，響應由DeepSeek-V3-0324生成。
shisa-ai/magpie-ultra-set
- 基於argilla/magpie-ultra-v1.0的日語生成數據。
shisa-ai/magpie-advanced-questions-set
- Magpie生成的關於各種學術領域的高級大學水平主題的問題。
shisa-ai/japan-magpie-set
- Magpie生成的關於日本經濟、歷史以及文化和商業實踐的問題。
shisa-ai/shisa-v2-roleplaying-sft
- 合成生成的角色扮演數據，包含各種角色、場景和類型。
shisa-ai/translation_expanded_master_set_filtered
- 一個涉及廣泛翻譯任務的合成數據集，包括論文、對話和小說。
shisa-ai/shisa-v2-instruction-following-sft
- 一個基於(Aratako/Magpie-Tanuki-8B-annotated-96k)提示和一系列指令遵循約束的指令遵循數據集。

最終DPO混合數據集

由113K個樣本組成，總計約1.15億個Llama 3標記：

shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
- 這是princeton-nlp/gemma2-ultrafeedback-armorm的一個版本，其中chosen響應由DeepSeek-V3-0324重新生成。
- 令人驚訝的是，我們發現僅使用這個相對較小的英語DPO對齊集的性能優於日英DPO集以及像Tulu 3偏好混合這樣大得多的數據集。
shisa-ai/shisa-v2-roleplaying-dpo
- 角色扮演SFT集的DPO變體，使用UltraFeedback風格的評分系統。
shisa-ai/translation-no-extra-text-dpo-dataset
- 一個旨在減少模型在不需要時輸出額外翻譯解釋文本傾向的DPO集。
shisa-ai/shisa-v2-instruction-following-dpo
- 指令遵循SFT集的DPO變體，以進一步增強指令遵循性能。
shisa-ai/politeness-dpo-set
- 一個用於更好控制日語響應說話風格的數據集。

🔧 技術細節

訓練過程

我們訓練了200多個模型，以實證測試各種變量。除了超參數和數據混合測試外，我們還對數據排序、多語言特定排序、課程學習、多階段訓練、各種形式的自我博弈、偏好調整以及一些最新的強化學習/可驗證獎勵技術進行了大量測試。

這裡無法全面討論這些經驗教訓，但我們將在即將發佈的文章中更新shisa-v2維基和Shisa.AI網站。

我們的大部分訓練是在一個小型的AWS Sagemaker部署的4節點H100 Slurm集群上進行的。訓練主要使用Axolotl，結合DeepSpeed和Liger Kernels。Shisa V2的Phi 4和Llama 3.3 70B版本使用OpenRLHF進行訓練。我們的訓練日誌可在Weights and Biases上公開獲取。

致謝

Shisa V2模型由Leonard Lin和Adam Lensenmayer (Shisa.AI)開發。

計算資源由Ubitus K.K.和METI GENIAC提供。

感謝Meta Llama、Microsoft Research、Mistral AI和Qwen團隊向開源社區提供他們的模型，感謝Unsloth對Phi-4進行的Llama化轉換，感謝Tulu團隊詳細的文章和對我們問題的快速響應，以及Axolotl團隊的Chanvichet Vong在Axolotl Discord上的不懈努力。

我們也向所有開源AI開發者和研究人員表示感謝，沒有他們公開分享的研究、工具和數據集，我們的工作將無法完成。我們希望我們自己的貢獻能夠進一步支持更廣泛的社區。

特別感謝Jon Durbin在Shisa V1上的工作。

有關我們開發和見解的更多詳細信息，請訪問Shisa V2 Github倉庫和Shisa.AI網站。

^{1: 根據Llama社區許可協議，基於Llama的模型的官方名稱為“Llama 3.1 shisa-v2-llama3.1-8b”和“Llama 3.3 shisa-v2-llama3.3-70b”}