模型概述
模型特點
模型能力
使用案例
🚀 Shisa V2
Shisa V2 是由 Shisa.AI 訓練的一系列日語和英語雙語(JA/EN)通用聊天模型。這些模型旨在在日語任務中表現出色,同時保持強大的英語能力。
自我們首次發佈 Shisa 7B 以來,開源權重語言模型的日語基礎能力有了顯著提升。新模型擁有更多的日語預訓練標記、更高的 日語分詞器效率,並且整體日語輸出質量更好。因此,對於 Shisa V2,我們放棄了分詞器擴展和成本高昂的持續預訓練,而是專注於優化後訓練。我們大幅擴展和完善了最初在 Shisa 7B 模型中開創的合成數據驅動方法,並取得了顯著的性能提升。
✨ 主要特性
模型家族概述
Shisa V2 家族包含一系列參數規模從 7B 到 70B 的模型:
許可證 | 模型名稱 | 參數 | 上下文長度 | 日語平均得分 | 英語平均得分 |
---|---|---|---|---|---|
Apache 2.0 | shisa-v2-qwen2.5-7b | 7B | 128K/8K | 71.06 | 54.86 |
Llama 3.1 | shisa-v2-llama3.1-8b1 | 8B | 128K | 70.83 | 54.75 |
Apache 2.0 | shisa-v2-mistral-nemo-12b | 12B | 128K | 72.83 | 53.33 |
MIT | shisa-v2-unphi4-14b | 14B | 16K | 75.89 | 60.10 |
Apache 2.0 | shisa-v2-qwen2.5-32b | 32B | 128K/8K | 76.97 | 67.41 |
Llama 3.3 | shisa-v2-llama3.3-70b1 | 70B | 128K | 79.72 | 67.71 |
這些 Shisa V2 模型均使用相同的數據集和訓練方法進行訓練,除了根據模型大小調整學習率,併為 70B 模型修改全局批量大小。
雖然我們的大部分開發和調優工作是在 Llama 3.1 8B 模型上進行的,但在此過程中我們也進行了一些交叉驗證,並且很高興我們最終的訓練方法在所有評估的模型規模上都顯示出了強大的擴展性,提高了日語語言性能。我們優先發布了每個類別中質量最高的開放許可(Apache 2.0 和 MIT)模型。
性能表現
與各自的基礎模型相比,所有 Shisa V2 模型的日語輸出質量都有所提高: | 模型名稱 | 日語平均得分 | 英語平均得分 | Shaberi 平均得分 | ELYZA 100 得分 | 日語 MT Bench 得分 | Rakuda 得分 | Tengu 得分 | llm-jp-eval 得分 | shisa-jp-ifeval 得分 | shisa-jp-rp-bench 得分 | shisa-jp-tl-bench 得分 | MixEval 得分 | LiveBench 得分 | IFEval 得分 | EvalPlus 得分 | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | shisa-ai/shisa-v2-mistral-nemo-12b | 72.83 | 53.33 | 8.46 | 8.38 | 8.79 | 9.06 | 7.63 | 0.58 | 0.31 | 4.55 | 6.39 | 0.39 | 33.4 | 0.74 | 0.68 | | mistralai/Mistral-Nemo-Instruct-2407 | 58.44 | 48.07 | 7.68 | 7.29 | 8.03 | 8.68 | 6.73 | 0.55 | 0.13 | 3.60 | 2.11 | 0.31 | 30.0 | 0.64 | 0.68 |
Shisa V2 模型在各自的參數規模類別中與其他模型相比表現出色。
許可證 | 模型名稱 | 日語平均得分 | 英語平均得分 | Shaberi 平均得分 | ELYZA 100 得分 | 日語 MT Bench 得分 | Rakuda 得分 | Tengu 得分 | llm-jp-eval 得分 | shisa-jp-ifeval 得分 | shisa-jp-rp-bench 得分 | shisa-jp-tl-bench 得分 | MixEval 得分 | LiveBench 得分 | IFEval 得分 | EvalPlus 得分 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
MIT | shisa-ai/shisa-v2-unphi4-14b | 75.89 | 60.10 | 8.50 | 8.45 | 8.84 | 8.96 | 7.73 | 0.62 | 0.43 | 4.76 | 6.79 | 0.53 | 40.7 | 0.67 | 0.80 |
Gemma | google/gemma-3-12b-it | 75.15 | 62.10 | 8.48 | 8.34 | 8.67 | 9.02 | 7.88 | 0.60 | 0.35 | 4.64 | 7.40 | 0.44 | 45.3 | 0.83 | 0.76 |
Apache 2.0 | shisa-ai/shisa-v2-mistral-nemo-12b | 72.83 | 53.33 | 8.46 | 8.38 | 8.79 | 9.06 | 7.63 | 0.58 | 0.31 | 4.55 | 6.39 | 0.39 | 33.4 | 0.74 | 0.68 |
MIT | microsoft/phi-4 | 72.47 | 61.14 | 8.48 | 8.49 | 8.65 | 9.11 | 7.68 | 0.58 | 0.35 | 4.55 | 5.62 | 0.52 | 42.1 | 0.69 | 0.81 |
Apache 2.0 | cyberagent/Mistral-Nemo-Japanese-Instruct-2408 | 71.12 | 48.00 | 8.28 | 8.11 | 8.55 | 9.21 | 7.24 | 0.58 | 0.26 | 4.59 | 6.25 | 0.34 | 28.5 | 0.62 | 0.67 |
Apache 2.0 | Qwen/Qwen2.5-14B-Instruct | 71.02 | 62.54 | 8.27 | 8.15 | 8.64 | 8.70 | 7.59 | 0.63 | 0.34 | 4.51 | 5.03 | 0.52 | 41.4 | 0.81 | 0.76 |
Apache 2.0 | mistralai/Mistral-Nemo-Instruct-2407 | 58.44 | 48.07 | 7.68 | 7.29 | 8.03 | 8.68 | 6.73 | 0.55 | 0.13 | 3.60 | 2.11 | 0.31 | 30.0 | 0.64 | 0.68 |
測試說明
日語功能測試使用了 LightBlue Shaberi 評估框架的 shisa-ai/shaberi 分支。Shaberi 評級由一個 PoLL(大語言模型評審團)進行,該評審團由以下模型組成:
測試結果經過統計驗證,與 gpt-4-1106-preview
和人工評審的“黃金標準”評級具有可比性。
在測試上下文窗口小於 8K 標記的模型時,必要情況下會使用動態 RoPE 擴展。所有測試均使用最新版本的 vLLM 或 SGLang 進行。
我們開發了一個自定義的“multieval”框架來自動化模型評估。標準基準測試包括:
- ELYZA Tasks 100
- JA MT-Bench (數據集)
- Rakuda
- Tengu Bench
- llm-jp-eval (v1.4.1)
- MixEval
- LiveBench (2024-11-25)
- IFEval (Lighteval)
- EvalPlus
新型日語基準測試
在模型開發過程中,我們還創建了幾個新的評估指標,以幫助我們衡量模型在重要的日語下游任務中的性能:
- shisa-jp-ifeval:受 IFEval 啟發,但專門評估模型在日語語法和語言學方面的指令遵循能力(封閉式)。
- shisa-jp-rp-bench:基於 Aratako 的 Japanese-RP-Bench 評估模型在日語角色扮演和基於角色/人物的多輪對話中的表現(大語言模型評審)。
- shisa-jp-tl-bench:測試模型的日英翻譯能力(大語言模型評審,通過 BTL 成對比較和邏輯變換評分)。
我們認為這些基準測試將具有普遍實用性,並計劃在不久的將來將其開源,以支持日語大語言模型研究社區。
💻 使用示例
基礎用法
所有 Shisa V2 模型都繼承了其各自基礎模型的 聊天模板,並且已經過測試和驗證,可與 vLLM 和 SGLang 進行正確推理。
在運行採樣器掃描時,我們發現這些模型在大多數設置下的各種溫度參數下都能良好運行。具體而言,對於翻譯任務,我們建議使用較低的溫度(0.2)以提高準確性。對於角色扮演和創意任務,較高的溫度(例如 1.0)似乎能產生較好的結果。為了防止跨語言標記洩漏,我們建議使用 0.9 的 top_p 或 0.1 的 min_p。
這些模型沒有進行額外的安全對齊,因此它們在很大程度上會繼承基礎模型的偏差和安全特性。
高級用法
由於文檔中未明確提及高級用法的代碼示例,此處暫不提供。
📦 數據集
監督微調(SFT)階段數據集
我們的監督微調(SFT)階段數據集包含約 360K 個樣本,總計約 420M 個 Llama 3 標記:
- shisa-ai/shisa-v2-sharegpt
- 這是原始 Shisa V1 augmxnt/ultra-orca-boros-en-ja-v1 數據集的過濾、重新生成和重新採樣版本。
- 這是我們 Shisa V2 訓練的核心數據集,事實證明它是一個非常強大的數據集,性能優於所有現有的混合/附加數據集(Tulu、Olmo、Rewild、各種 Magpie 數據集等)。如果您需要一個日語/英語數據集,我們認為這個新版本是目前可用的最佳數據集之一。
- shisa-ai/rewild-set-deepseek-subset
- Rewild (WildChat) 提示的過濾版本,翻譯成日語,並由 DeepSeek-V3-0324 生成響應。
- shisa-ai/magpie-ultra-set
- 基於 argilla/magpie-ultra-v1.0 的日語生成數據。
- shisa-ai/magpie-advanced-questions-set
- Magpie 生成的關於各種學術領域高級大學主題的問題。
- shisa-ai/japan-magpie-set
- Magpie 生成的關於日本經濟、歷史以及文化和商業實踐的問題。
- shisa-ai/shisa-v2-roleplaying-sft
- 合成生成的角色扮演數據,包含各種角色、場景和類型。
- shisa-ai/translation_expanded_master_set_filtered
- 一個涉及廣泛翻譯任務的合成數據集,包括論文、對話和小說。
- shisa-ai/shisa-v2-instruction-following-sft
- 基於 Aratako/Magpie-Tanuki-8B-annotated-96k 提示和一系列指令遵循約束的指令遵循數據集。
最終 DPO 混合數據集
我們的最終 DPO 混合數據集包含 113K 個樣本,總計約 115M 個 Llama 3 標記:
- shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
- 這是 princeton-nlp/gemma2-ultrafeedback-armorm 的一個版本,其中
chosen
響應由 DeepSeek-V3-0324 重新生成。 - 令人驚訝的是,我們發現僅使用這個相對較小的英語 DPO 對齊集的性能優於日語/英語 DPO 集,也優於像 Tulu 3 偏好混合 這樣大得多的數據集。
- 這是 princeton-nlp/gemma2-ultrafeedback-armorm 的一個版本,其中
- shisa-ai/shisa-v2-roleplaying-dpo
- 角色扮演 SFT 集的 DPO 變體,使用 UltraFeedback 風格的評級系統。
- shisa-ai/translation-no-extra-text-dpo-dataset
- 一個旨在減少模型在不需要時輸出額外解釋性文本的 DPO 集。
- shisa-ai/shisa-v2-instruction-following-dpo
- 指令遵循 SFT 集的 DPO 變體,以進一步增強指令遵循性能。
- shisa-ai/politeness-dpo-set
- 一個用於更好控制日語響應說話風格的數據集。
🔧 訓練過程
我們訓練了 200 多個模型,以實證測試各種變量。除了超參數和數據混合測試之外,我們還對數據排序、多語言特定排序、課程學習、多階段訓練、各種形式的自我博弈、偏好調整以及一些最新的強化學習/可驗證獎勵技術進行了大量測試。
全面討論這些經驗教訓超出了本文的範圍,但我們將在即將發佈的文章中更新 shisa-v2 維基 和 Shisa.AI 網站。
我們的大部分訓練工作是在一個小型的 AWS Sagemaker 部署的 4 節點 H100 Slurm 集群上進行的。訓練主要使用 Axolotl 結合 DeepSpeed 和 Liger Kernels 進行。Shisa V2 的 Phi 4 和 Llama 3.3 70B 版本使用 OpenRLHF 進行訓練。我們的訓練日誌 可在 Weights and Biases 上公開獲取。
致謝
Shisa V2 模型由 Leonard Lin 和 Adam Lensenmayer (Shisa.AI) 開發。
計算資源由 Ubitus K.K. 和 METI GENIAC 提供。
感謝 Meta Llama、Microsoft Research、Mistral AI 和 Qwen Team 向開源社區提供他們的模型,感謝 Unsloth 提供的 Phi-4 的 Llama 化轉換,感謝 Tulu 團隊,他們詳細的文檔和對我們問題的快速響應非常有幫助,也感謝 Axolotl 團隊的 Chanvichet Vong 在 Axolotl Discord 上的不懈努力。
我們還要感謝所有開源人工智能開發者和研究人員——沒有他們公開分享的研究、工具和數據集,我們的工作將無法完成。我們希望我們自己的貢獻能夠進一步支持更廣泛的社區。
特別感謝 Jon Durbin 在 Shisa V1 上的工作。
有關我們開發過程和見解的更多詳細信息,請訪問 Shisa V2 Github 倉庫 和 Shisa.AI 網站。
1: 根據 Llama 社區許可協議,基於 Llama 的模型的正式名稱為 "Llama 3.1 shisa-v2-llama3.1-8b" 和 "Llama 3.3 shisa-v2-llama3.3-70b"
📄 許可證
本項目採用 Apache 2.0 許可證。



