模型概述
模型特點
模型能力
使用案例
🚀 Shisa V2
Shisa V2 是由 Shisa.AI 訓練的一系列日英雙語(JA/EN)通用聊天模型。這些模型旨在在日語任務中表現出色,同時保持強大的英語能力。
自我們最初發布 Shisa 7B 以來,開源權重語言模型的日語基礎能力有了顯著提升。新模型擁有更多的日語預訓練標記、更高的 日語分詞器效率,並且整體日語輸出質量更好。因此,對於 Shisa V2,我們摒棄了分詞器擴展和昂貴的持續預訓練,而是專注於優化後訓練。我們大幅擴展並完善了最初在 Shisa 7B 模型中開創的合成數據驅動方法,並取得了顯著的性能提升。
✨ 主要特性
模型家族概述
Shisa V2 家族包含一系列參數規模從 70 億到 700 億的模型:
許可證 | 模型名稱 | 參數數量 | 上下文長度 | 日語平均分 | 英語平均分 |
---|---|---|---|---|---|
Apache 2.0 | shisa-v2-qwen2.5-7b | 70 億 | 128K/8K | 71.06 | 54.86 |
Llama 3.1 | shisa-v2-llama3.1-8b1 | 80 億 | 128K | 70.83 | 54.75 |
Apache 2.0 | shisa-v2-mistral-nemo-12b | 120 億 | 128K | 72.83 | 53.33 |
MIT | shisa-v2-unphi4-14b | 140 億 | 16K | 75.89 | 60.10 |
Apache 2.0 | shisa-v2-qwen2.5-32b | 320 億 | 128K/8K | 76.97 | 67.41 |
Llama 3.3 | shisa-v2-llama3.3-70b1 | 700 億 | 128K | 79.72 | 67.71 |
這些 Shisa V2 模型均使用相同的數據集和訓練方法進行訓練,除了根據模型大小調整學習率和為 700 億參數模型修改全局批量大小。
雖然我們的大部分開發和調優工作是在 Llama 3.1 80 億參數模型上進行的,但在此過程中我們也進行了一些交叉驗證。我們很高興地看到,最終的訓練方法在所有評估的模型大小上都表現出了強大的擴展性,提高了所有模型的日語性能。我們優先發布了每個參數規模類別中質量最高的開源許可(Apache 2.0 和 MIT)模型。
性能表現
與各自的基礎模型相比,所有 Shisa V2 模型在日語輸出質量上都有顯著提升:
模型名稱 | 日語平均分 | 英語平均分 | Shaberi 平均分 | ELYZA 100 | 日語 MT 基準測試 | Rakuda | Tengu | llm-jp-eval | shisa-jp-ifeval | shisa-jp-rp-bench | shisa-jp-tl-bench | MixEval | LiveBench | IFEval | EvalPlus |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
shisa-ai/shisa-v2-qwen2.5-7b | 71.06 | 54.86 | 8.21 | 7.81 | 8.49 | 8.91 | 7.62 | 0.59 | 0.32 | 4.49 | 5.98 | 0.44 | 32.9 | 0.70 | 0.73 |
Qwen/Qwen2.5-7B-Instruct | 65.30 | 58.11 | 8.03 | 7.81 | 8.09 | 8.68 | 7.53 | 0.57 | 0.29 | 4.15 | 3.29 | 0.44 | 33.9 | 0.76 | 0.79 |
Shisa V2 模型在各自的參數規模類別中與其他模型相比表現出色。
為了便於參考,我們還列出了最近發佈的 shisa-v2-llama3.1-8b-preview “預覽版”以及仍然受歡迎但早已被取代的 shisa-gamma-7b-v1 模型。
許可證 | 模型名稱 | 日語平均分 | 英語平均分 | Shaberi 平均分 | ELYZA 100 | 日語 MT 基準測試 | Rakuda | Tengu | llm-jp-eval | shisa-jp-ifeval | shisa-jp-rp-bench | shisa-jp-tl-bench | MixEval | LiveBench | IFEval | EvalPlus |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Apache 2.0 | shisa-ai/shisa-v2-qwen2.5-7b | 71.06 | 54.86 | 8.21 | 7.81 | 8.49 | 8.91 | 7.62 | 0.59 | 0.32 | 4.49 | 5.98 | 0.44 | 32.9 | 0.70 | 0.73 |
Llama 3.1 | shisa-ai/shisa-v2-llama3.1-8b | 70.83 | 54.75 | 8.20 | 7.67 | 8.32 | 9.24 | 7.56 | 0.57 | 0.31 | 4.61 | 5.91 | 0.45 | 31.7 | 0.82 | 0.61 |
Llama 3.1 | shisa-ai/shisa-v2-llama3.1-8b-preview | 68.03 | 54.56 | 8.12 | 7.55 | 8.57 | 9.03 | 7.33 | 0.56 | 0.19 | 4.67 | 5.18 | 0.46 | 32.0 | 0.79 | 0.62 |
Llama 3.1 | tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3 | 67.44 | 42.20 | 8.22 | 8.01 | 8.40 | 9.10 | 7.37 | 0.56 | 0.25 | 4.36 | 4.22 | 0.30 | 26.4 | 0.64 | 0.48 |
Apache 2.0 | Qwen/Qwen2.5-7B-Instruct | 65.30 | 58.11 | 8.03 | 7.81 | 8.09 | 8.68 | 7.53 | 0.57 | 0.29 | 4.15 | 3.29 | 0.44 | 33.9 | 0.76 | 0.79 |
Llama 3.1 | AXCXEPT/Llama-3.1-8B-EZO-1.1-it | 63.80 | 53.94 | 7.93 | 7.57 | 8.26 | 8.61 | 7.28 | 0.39 | 0.22 | 4.53 | 4.17 | 0.46 | 30.4 | 0.77 | 0.62 |
Llama 3 | elyza/Llama-3-ELYZA-JP-8B | 60.92 | 39.09 | 7.91 | 7.61 | 8.08 | 8.92 | 7.04 | 0.41 | 0.24 | 4.39 | 1.75 | 0.34 | 17.5 | 0.62 | 0.43 |
Llama 3.1 | allenai/Llama-3.1-Tulu-3.1-8B | 60.86 | 54.21 | 7.42 | 6.84 | 7.69 | 8.61 | 6.52 | 0.51 | 0.22 | 4.39 | 2.90 | 0.40 | 31.3 | 0.82 | 0.63 |
Apache 2.0 | llm-jp/llm-jp-3-7.2b-instruct3 | 56.05 | 23.46 | 7.66 | 6.99 | 7.70 | 9.16 | 6.79 | 0.47 | 0.20 | 3.03 | 1.49 | 0.22 | 5.2 | 0.49 | 0.18 |
Llama 3.1 | meta-llama/Llama-3.1-8B-Instruct | 53.43 | 53.43 | 7.34 | 6.95 | 7.67 | 8.36 | 6.40 | 0.25 | 0.16 | 4.13 | 1.03 | 0.44 | 27.7 | 0.80 | 0.63 |
Llama 3 | shisa-ai/shisa-v1-llama3-8b | 53.08 | 42.80 | 7.17 | 6.40 | 7.50 | 8.31 | 6.48 | 0.23 | 0.09 | 4.20 | 2.24 | 0.36 | 20.2 | 0.63 | 0.52 |
Apache 2.0 | weblab-GENIAC/Tanuki-8B-dpo-v1.0 | 52.25 | 27.04 | 7.10 | 6.97 | 6.58 | 8.40 | 6.46 | 0.23 | 0.17 | 3.67 | 2.02 | 0.24 | 14.4 | 0.38 | 0.32 |
Apache 2.0 | augmxnt/shisa-gamma-7b-v1 | 48.88 | 20.88 | 6.20 | 5.74 | 5.93 | 7.28 | 5.87 | 0.52 | 0.13 | 3.20 | 1.43 | 0.26 | 2.2 | 0.37 | 0.18 |
測試說明
日語功能測試使用了 LightBlue Shaberi 評估框架的 shisa-ai/shaberi 分支。Shaberi 評級由一個 PoLL(大語言模型評審團)進行,該評審團由以下模型組成:
測試結果經過統計驗證,與 gpt-4-1106-preview
和人工評審的“黃金標準”評級具有可比性。
在測試上下文窗口小於 8K 標記的模型時,必要情況下會使用動態 RoPE 擴展。所有測試均使用 vLLM 或 SGLang 的最新版本進行。
我們開發了一個自定義的“multieval”框架來自動化模型評估。標準基準測試包括:
- ELYZA Tasks 100
- JA MT-Bench (數據集)
- Rakuda
- Tengu Bench
- llm-jp-eval (v1.4.1)
- MixEval
- LiveBench (2024-11-25)
- IFEval (Lighteval)
- EvalPlus
新的日語基準測試
在模型開發過程中,我們還創建了幾個新的評估指標,以幫助我們衡量模型在重要的日語下游任務中的性能:
- shisa-jp-ifeval:受 IFEval 啟發,但專門評估模型在日語語法和語言學方面的指令遵循能力(封閉式)。
- shisa-jp-rp-bench:基於 Aratako 的 Japanese-RP-Bench 評估模型在日語角色扮演和基於角色/人物的多輪對話中的性能(大語言模型評審)。
- shisa-jp-tl-bench:測試模型的日英翻譯能力(大語言模型評審,採用 BTL 成對比較和邏輯變換評分)。
我們相信這些基準測試將具有普遍實用性,並計劃在不久的將來將其開源,以支持日語大語言模型研究社區。
📦 安裝指南
文檔未提供安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
所有 Shisa V2 模型繼承了其各自基礎模型的 聊天模板,並且已經過 vLLM 和 SGLang 的測試和驗證,可進行正確推理。
高級用法
在運行採樣器掃描時,我們發現模型在大多數設置下的各種溫度參數下都能表現良好。具體而言,對於翻譯任務,我們建議使用較低的溫度(0.2)以提高準確性。對於角色扮演和創意任務,較高的溫度(例如 1.0)似乎能產生較好的結果。為了防止跨語言標記洩漏,我們建議使用 0.9 的 top_p
或 0.1 的 min_p
。
需要注意的是,這些模型沒有進行額外的安全對齊,因此它們在很大程度上會繼承基礎模型的偏差和安全特性。
📚 詳細文檔
數據集
我們的監督微調(SFT)階段數據集包含約 36 萬個樣本,總計約 420 億個 Llama 3 標記:
- shisa-ai/shisa-v2-sharegpt
- 這是原始 Shisa V1 augmxnt/ultra-orca-boros-en-ja-v1 數據集的過濾、重新生成和重新採樣版本。
- 這是我們 Shisa V2 訓練的核心數據集,事實證明它是一個非常強大的數據集,性能優於所有現有的混合數據集(Tulu、Olmo、Rewild、各種 Magpie 數據集等)。如果您需要一個日英雙語數據集,我們認為這個新版本是目前可用的最佳數據集之一。
- shisa-ai/rewild-set-deepseek-subset
- 這是 Rewild (WildChat) 提示翻譯成日語後的過濾版本,響應由 DeepSeek-V3-0324 生成。
- shisa-ai/magpie-ultra-set
- 基於 argilla/magpie-ultra-v1.0 生成的日語數據。
- shisa-ai/magpie-advanced-questions-set
- Magpie 生成的關於各種學術領域高級大學水平主題的問題。
- shisa-ai/japan-magpie-set
- Magpie 生成的關於日本經濟、歷史以及文化和商業實踐的問題。
- shisa-ai/shisa-v2-roleplaying-sft
- 合成生成的角色扮演數據,包含各種角色、場景和類型。
- shisa-ai/translation_expanded_master_set_filtered
- 一個包含廣泛翻譯任務的合成數據集,包括文章、對話和小說。
- shisa-ai/shisa-v2-instruction-following-sft
- 一個基於 (Aratako/Magpie-Tanuki-8B-annotated-96k) 提示和一系列指令遵循約束的指令遵循數據集。
我們最終的直接偏好優化(DPO)混合數據集包含 11.3 萬個樣本,總計約 115 億個 Llama 3 標記:
- shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
- 這是 princeton-nlp/gemma2-ultrafeedback-armorm 的一個版本,其中
chosen
響應由 DeepSeek-V3-0324 重新生成。 - 令人驚訝的是,我們發現僅使用這個相對較小的英語 DPO 對齊集的性能優於日英雙語 DPO 集以及更大的數據集,如 Tulu 3 偏好混合數據集。
- 這是 princeton-nlp/gemma2-ultrafeedback-armorm 的一個版本,其中
- shisa-ai/shisa-v2-roleplaying-dpo
- 角色扮演 SFT 數據集的 DPO 變體,使用 UltraFeedback 風格的評級系統。
- shisa-ai/translation-no-extra-text-dpo-dataset
- 一個旨在減少模型在不需要時為翻譯輸出額外解釋性文本的 DPO 數據集。
- shisa-ai/shisa-v2-instruction-following-dpo
- 指令遵循 SFT 數據集的 DPO 變體,用於進一步增強指令遵循性能。
- shisa-ai/politeness-dpo-set
- 一個用於更好控制日語響應說話風格的數據集。
訓練
我們訓練了 200 多個模型,以實證測試各種變量。除了超參數和數據混合測試外,我們還對數據排序、多語言特定排序、課程學習、多階段訓練、各種形式的自我博弈、偏好調整以及一些最新的強化學習/可驗證獎勵技術進行了大量測試。
這裡無法詳細討論所有這些經驗教訓,但我們將在 shisa-v2 維基 和 Shisa.AI 網站 上更新相關文章。
我們的大部分訓練工作是在一個小型的 AWS Sagemaker 部署的 4 節點 H100 Slurm 集群上完成的。訓練主要使用 Axolotl 結合 DeepSpeed 和 Liger Kernels 進行。Shisa V2 的 Phi 4 和 Llama 3.3 700 億參數版本使用 OpenRLHF 進行訓練。我們的訓練日誌 可在 Weights and Biases 上公開獲取。
致謝
Shisa V2 模型由 Leonard Lin 和 Adam Lensenmayer (Shisa.AI) 開發。
計算資源由 Ubitus K.K. 和 METI GENIAC 提供。
感謝 Meta Llama、Microsoft Research、Mistral AI 和 Qwen Team 向開源社區提供他們的模型;感謝 Unsloth 對 Phi-4 進行的 llamafied 轉換;感謝 Tulu 團隊詳細的文章和對我們問題的快速響應;感謝 Axolotl 團隊的 Chanvichet Vong 在 Axolotl Discord 中的不懈努力。
我們還要感謝所有開源人工智能開發者和研究人員,沒有他們公開分享的研究成果、工具和數據集,我們的工作將無法完成。我們希望我們自己的貢獻能夠進一步支持更廣泛的社區。
特別感謝 Jon Durbin 在 Shisa V1 上的工作。
有關我們的開發詳情和見解,請訪問 Shisa V2 Github 倉庫 和 Shisa.AI 網站。
📄 許可證
本項目採用 Apache 2.0 許可證。
1: 根據 Llama 社區許可協議,基於 Llama 的模型的正式名稱為 "Llama 3.1 shisa-v2-llama3.1-8b" 和 "Llama 3.3 shisa-v2-llama3.3-70b"



