模型概述
模型特點
模型能力
使用案例
🚀 Shisa V2
Shisa V2是由Shisa.AI訓練的一系列日英雙語(JA/EN)通用聊天模型。這些模型旨在在日語任務中表現出色,同時保持強大的英語能力。
自我們最初發布Shisa 7B以來,開源權重語言模型的日語基礎能力有了顯著提升。新模型擁有更多的日語預訓練標記、更高的日語分詞器效率,並且整體日語輸出質量更好。因此,對於Shisa V2,我們放棄了分詞器擴展和成本高昂的持續預訓練,而是專注於優化後訓練。我們大幅擴展並完善了最初在Shisa 7B模型中開創的合成數據驅動方法,並取得了顯著的性能提升。
🚀 快速開始
Shisa V2模型繼承了各自基礎模型的聊天模板,並已使用vLLM和SGLang進行了測試和驗證,以確保能夠進行正確的推理。
在運行採樣器掃描時,我們發現這些模型在大多數設置下,在各種溫度參數下都能很好地運行。具體來說,對於翻譯任務,我們建議使用較低的溫度(0.2)以提高準確性。對於角色扮演和創意任務,較高的溫度(例如1.0)似乎能產生較好的結果。為了防止跨語言標記洩漏,我們建議使用0.9的top_p或0.1的min_p。
⚠️ 重要提示
這些模型沒有進行額外的安全對齊,因此它們在很大程度上會繼承基礎模型的偏差和安全特性。
💡 使用建議
對於不同的任務,可以根據上述建議調整溫度參數和top_p或min_p的值,以獲得更好的效果。
✨ 主要特性
- 雙語能力:具備出色的日語和英語處理能力,能夠在兩種語言之間靈活切換。
- 性能提升:與各自的基礎模型相比,Shisa V2模型在日語輸出質量上有顯著提高。
- 數據驅動:採用合成數據驅動的方法進行訓練,提高了模型的性能和泛化能力。
📦 安裝指南
文檔未提及安裝步驟,故跳過該章節。
💻 使用示例
文檔未提供代碼示例,故跳過該章節。
📚 詳細文檔
模型家族概述
Shisa V2家族包含一系列參數規模從7B到70B的模型:
許可證 | 模型 | 參數數量 | 上下文長度 | 日語平均得分 | 英語平均得分 |
---|---|---|---|---|---|
Apache 2.0 | shisa-v2-qwen2.5-7b | 7B | 128K/8K | 71.06 | 54.86 |
Llama 3.1 | shisa-v2-llama3.1-8b1 | 8B | 128K | 70.83 | 54.75 |
Apache 2.0 | shisa-v2-mistral-nemo-12b | 12B | 128K | 72.83 | 53.33 |
MIT | shisa-v2-unphi4-14b | 14B | 16K | 75.89 | 60.10 |
Apache 2.0 | shisa-v2-qwen2.5-32b | 32B | 128K/8K | 76.97 | 67.41 |
Llama 3.3 | shisa-v2-llama3.3-70b1 | 70B | 128K | 79.72 | 67.71 |
這些Shisa V2模型均使用相同的數據集和訓練配方進行訓練,除了根據模型大小調整學習率,併為70B模型修改全局批量大小。
雖然我們的大部分開發和調優工作是在Llama 3.1 8B模型上進行的,但在這個過程中我們也進行了一些交叉驗證。我們很高興地看到,最終的訓練配方在所有評估的模型大小上都表現出了強大的擴展性,提高了日語語言性能。我們優先發布了每個類別中質量最高的開源許可(Apache 2.0和MIT)模型。
性能
所有Shisa V2模型與各自的基礎模型相比,在日語輸出質量上都有顯著提高:
| 模型 | 日語平均得分 | 英語平均得分 | Shaberi平均得分 | ELYZA 100得分 | 日語MT Bench得分 | Rakuda得分 | Tengu得分 | llm-jp-eval得分 | shisa-jp-ifeval得分 | shisa-jp-rp-bench得分 | shisa-jp-tl-bench得分 | MixEval得分 | LiveBench得分 | IFEval得分 | EvalPlus得分 | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | shisa-ai/shisa-v2-llama3.3-70b | 79.72 | 67.71 | 8.86 | 8.98 | 9.03 | 9.32 | 8.11 | 0.63 | 0.42 | 4.72 | 8.37 | 0.59 | 48.7 | 0.84 | 0.79 | | meta-llama/Llama-3.3-70B-Instruct | 72.75 | 71.48 | 8.28 | 8.09 | 8.76 | 8.88 | 7.40 | 0.66 | 0.35 | 4.65 | 5.75 | 0.64 | 51.8 | 0.92 | 0.79 |
Shisa V2模型在各自的參數規模類別中與其他模型相比表現出色:
許可證 | 模型 | 日語平均得分 | 英語平均得分 | Shaberi平均得分 | ELYZA 100得分 | 日語MT Bench得分 | Rakuda得分 | Tengu得分 | llm-jp-eval得分 | shisa-jp-ifeval得分 | shisa-jp-rp-bench得分 | shisa-jp-tl-bench得分 | MixEval得分 | LiveBench得分 | IFEval得分 | EvalPlus得分 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Llama 3.3 | shisa-ai/shisa-v2-llama3.3-70b | 79.72 | 67.71 | 8.86 | 8.98 | 9.03 | 9.32 | 8.11 | 0.63 | 0.42 | 4.72 | 8.37 | 0.59 | 48.7 | 0.84 | 0.79 |
Qwen | Qwen/Qwen2.5-72B-Instruct | 77.57 | 68.12 | 8.81 | 8.97 | 8.83 | 9.23 | 8.22 | 0.67 | 0.47 | 4.52 | 6.39 | 0.54 | 53.8 | 0.86 | 0.79 |
Llama 3.3 | tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4 | 75.59 | 61.03 | 8.55 | 8.34 | 8.81 | 9.15 | 7.90 | 0.66 | 0.39 | 4.55 | 6.63 | 0.50 | 41.6 | 0.80 | 0.73 |
Llama 3.1 | allenai/Llama-3.1-Tulu-3-70B | 74.64 | 64.48 | 8.60 | 8.31 | 8.84 | 9.36 | 7.91 | 0.65 | 0.41 | 4.70 | 5.31 | 0.54 | 42.4 | 0.86 | 0.76 |
Llama 3.1 | cyberagent/Llama-3.1-70B-Japanese-Instruct-2407 | 73.67 | 64.47 | 8.68 | 8.93 | 8.61 | 9.14 | 8.06 | 0.63 | 0.36 | 4.05 | 6.25 | 0.56 | 43.6 | 0.85 | 0.73 |
Llama 3.3 | meta-llama/Llama-3.3-70B-Instruct | 72.75 | 71.48 | 8.28 | 8.09 | 8.76 | 8.88 | 7.40 | 0.66 | 0.35 | 4.65 | 5.75 | 0.64 | 51.8 | 0.92 | 0.79 |
Llama 3 | shisa-ai/shisa-v1-llama3-70b | 60.63 | 52.96 | 7.73 | 7.33 | 8.06 | 8.88 | 6.65 | 0.26 | 0.24 | 4.51 | 3.51 | 0.56 | 27.4 | 0.65 | 0.63 |
測試說明
日語功能測試使用了LightBlue Shaberi評估工具的**shisa-ai/shaberi分支。Shaberi評級由一個由以下模型組成的PoLL**(大語言模型評審團)進行:
測試結果經過統計驗證,與gpt-4-1106-preview
和人工評審的“黃金標準”評級具有可比性。
在測試上下文窗口小於8K標記的模型時,必要時使用了動態RoPE擴展。所有測試均使用最新版本的vLLM或SGLang進行。
我們開發了一個自定義的“multieval”工具來自動化模型評估。標準基準測試包括:
- ELYZA Tasks 100
- JA MT-Bench (數據集)
- Rakuda
- Tengu Bench
- llm-jp-eval (v1.4.1)
- MixEval
- LiveBench (2024-11-25)
- IFEval (Lighteval)
- EvalPlus
新的日語基準測試
在模型開發過程中,我們還創建了幾個新的評估指標,以幫助我們衡量在重要的日語下游任務上的性能:
- shisa-jp-ifeval:受IFEval啟發,但專門評估日語語法和語言學方面的指令遵循能力(封閉式)。
- shisa-jp-rp-bench:基於Aratako的Japanese-RP-Bench,評估日語角色扮演和基於角色/人物的多輪對話性能(大語言模型評審)。
- shisa-jp-tl-bench:測試日英翻譯能力(大語言模型評審,採用BTL成對比較和邏輯變換評分)。
我們相信這些基準測試將具有普遍實用性,並計劃在不久的將來將其開源,以支持日語大語言模型研究社區。
數據集
監督微調(SFT)階段數據集
該數據集包含約360K個樣本,總計約420M Llama 3標記:
- shisa-ai/shisa-v2-sharegpt
- 這是原始Shisa V1 augmxnt/ultra-orca-boros-en-ja-v1數據集的過濾、重新生成和重新採樣版本。
- 這是我們Shisa V2訓練的核心數據集,事實證明它是一個非常強大的數據集,性能優於所有現有的混合/附加數據集(Tulu、Olmo、Rewild、各種Magpie集等)。如果您需要一個日英數據集,我們認為這個新版本是目前可用的最佳數據集之一。
- shisa-ai/rewild-set-deepseek-subset
- Rewild (WildChat)提示的過濾版本,翻譯成日語,並由DeepSeek-V3-0324生成響應。
- shisa-ai/magpie-ultra-set
- 基於argilla/magpie-ultra-v1.0的日語生成數據。
- shisa-ai/magpie-advanced-questions-set
- Magpie生成的關於各種學術領域高級大學主題的問題。
- shisa-ai/japan-magpie-set
- Magpie生成的關於日本經濟、歷史以及文化和商業實踐的問題。
- shisa-ai/shisa-v2-roleplaying-sft
- 合成生成的角色扮演數據,包含各種角色、場景和類型。
- shisa-ai/translation_expanded_master_set_filtered
- 一個涉及廣泛翻譯任務的合成數據集,包括論文、對話和小說。
- shisa-ai/shisa-v2-instruction-following-sft
- 基於(Aratako/Magpie-Tanuki-8B-annotated-96k)提示和一系列指令遵循約束的指令遵循數據集。
最終DPO混合數據集
該數據集包含113K個樣本,總計約115M Llama 3標記:
- shisa-ai/deepseekv3-ultrafeedback-armorm-dpo
- 這是princeton-nlp/gemma2-ultrafeedback-armorm的一個版本,其中
chosen
響應由DeepSeek-V3-0324重新生成。 - 令人驚訝的是,我們發現僅使用這個相對較小的英語DPO對齊集的性能優於日英DPO集,也優於像Tulu 3偏好混合這樣大得多的數據集。
- 這是princeton-nlp/gemma2-ultrafeedback-armorm的一個版本,其中
- shisa-ai/shisa-v2-roleplaying-dpo
- 角色扮演SFT集的DPO變體,使用UltraFeedback風格的評級系統。
- shisa-ai/translation-no-extra-text-dpo-dataset
- 一個旨在減少模型在不需要時輸出額外翻譯解釋文本傾向的DPO集。
- shisa-ai/shisa-v2-instruction-following-dpo
- 指令遵循SFT集的DPO變體,以進一步提高指令遵循性能。
- shisa-ai/politeness-dpo-set
- 一個用於更好控制日語響應說話風格的數據集。
訓練
我們訓練了超過200個模型,以實證測試各種變量。除了超參數和數據混合測試外,我們還對數據排序、多語言特定排序、課程學習、多階段訓練、各種形式的自我博弈、偏好調整以及一些最新的強化學習/可驗證獎勵技術進行了大量測試。
這裡無法詳細討論所有的訓練經驗,但我們將在shisa-v2 wiki和Shisa.AI網站上更新相關的詳細文章。
我們的大部分訓練是在一個小型的AWS Sagemaker部署的4節點H100 Slurm集群上進行的。訓練主要使用Axolotl,結合DeepSpeed和Liger Kernels。Shisa V2的Phi 4和Llama 3.3 70B版本使用OpenRLHF進行訓練。我們的訓練日誌可以在Weights and Biases上公開獲取。
致謝
Shisa V2模型由Leonard Lin和Adam Lensenmayer (Shisa.AI)開發。
計算資源由Ubitus K.K.和METI GENIAC提供。
感謝Meta Llama、Microsoft Research、Mistral AI和Qwen Team向開源社區提供他們的模型;感謝Unsloth提供的Phi-4的Llama化轉換;感謝Tulu團隊,他們詳細的文章和對我們問題的快速響應非常有幫助;感謝Axolotl團隊的Chanvichet Vong在Axolotl Discord上的不懈努力。
我們還要感謝所有開源AI開發者和研究人員,如果沒有他們公開分享的研究、工具和數據集,我們的工作將無法完成。我們希望自己的貢獻能夠進一步支持更廣泛的社區。
特別感謝Jon Durbin在Shisa V1上的工作。
有關我們開發和見解的更多詳細信息,請訪問Shisa V2 Github倉庫和Shisa.AI網站。
1: 根據Llama社區許可協議,基於Llama的模型的官方名稱為“Llama 3.1 shisa-v2-llama3.1-8b”和“Llama 3.3 shisa-v2-llama3.3-70b”
🔧 技術細節
文檔未提供足夠的技術實現細節(具體技術說明少於50字),故跳過該章節。
📄 許可證
該模型使用llama3.3
許可證。



