🚀 SambaLingo日語聊天模型
SambaLingo日語聊天模型是一個經過人類對齊的語言模型,支持日語和英語。它基於SambaLingo-Japanese-Base基礎模型,使用直接偏好優化(DPO)方法進行微調。基礎模型則是在Llama-2-7b的基礎上,通過Cultura-X數據集的日語部分的420億個標記進行訓練,以適應日語。你可以在SambaLingo-chat-space中試用該模型。
🚀 快速開始
使用Hugging Face加載模型
加載分詞器時,請確保設置use_fast=False
。
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Japanese-Chat", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Japanese-Chat", device_map="auto", torch_dtype="auto")
與模型管道交互
加載分詞器時,請確保設置use_fast=False
。
from transformers import pipeline
pipe = pipeline("text-generation", model="sambanovasystems/SambaLingo-Japanese-Chat", device_map="auto", use_fast=False)
messages = [
{"role": "user", "content": {YOUR_QUESTION}},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt)[0]
outputs = outputs["generated_text"]
建議的推理參數
- 溫度(Temperature):0.8
- 重複懲罰(Repetition penalty):1.0
- 核採樣概率(Top-p):0.9
提示準則
要使用此模型進行提示,請使用以下聊天模板:
<|user|>\n{question}</s>\n<|assistant|>\n
提示示例和生成結果
<|user|>
茶道用語で、茶室ではなく、屋外でお茶を點てることを何というでしょう?</s>
<|assistant|>
茶道用語で、茶室ではなく屋外でお茶を點てることを「野點(のだて)」といいます。
✨ 主要特性
- 多語言支持:支持日語和英語兩種語言。
- 基於強大基礎模型:基於Llama-2-7b進行微調,具有較好的語言理解和生成能力。
- 人類對齊:通過直接偏好優化(DPO)方法進行微調,使模型輸出更符合人類偏好。
📦 模型描述
🔧 技術細節
訓練細節
對齊階段遵循Zephyr-7B的訓練方法,包括兩個階段:監督微調(SFT)和直接性能優化(DPO)。
SFT階段在ultrachat_200k數據集和其谷歌翻譯版本的混合數據集上進行。訓練一個epoch,全局批次大小為512,最大序列長度為2048個標記。使用線性衰減學習率2e-5,熱身比例為10%。
DPO階段在ultrafeedback數據集和cai-conversation-harmless數據集,以及10%的谷歌翻譯數據的混合數據集上進行。訓練三個epoch,全局批次大小為32。使用線性衰減學習率5e-7,熱身比例為10%,DPO的正則化因子β=0.1。
分詞器細節
通過添加新語言中最多25,000個非重疊標記,將基礎Llama模型的詞彙表從32,000個標記擴展到57,000個標記。
📚 詳細文檔
評估
評估結果請參考我們的論文:SambaLingo: Teaching Large Language Models New Languages
使用方式
直接使用
使用此模型受Meta的Llama 2社區許可協議約束。請在下載模型權重之前查看並接受許可協議。
非預期使用
SambaLingo不應用於以下場景:
- 關鍵任務應用
- 涉及他人安全的應用
- 做出高度重要決策的應用
偏差、風險和侷限性
與所有大語言模型一樣,SambaLingo存在一定的侷限性:
- 幻覺問題:模型有時可能會生成聽起來合理但事實錯誤或無關的信息。
- 語言切換:模型可能會在單個響應中無意地在語言或方言之間切換,影響輸出的連貫性和可理解性。
- 重複問題:模型可能會產生重複的短語或句子,導致響應的吸引力和信息量降低。
- 編碼和數學能力:模型在生成準確代碼或解決複雜數學問題方面的性能可能有限。
- 毒性問題:模型可能會無意中生成包含不適當或有害內容的響應。
📄 許可證
本模型使用Llama 2許可證。
致謝
我們衷心感謝開源AI社區;如果沒有開源,這項工作將無法完成。SambaNova支持開源社區,並希望積極為這一倡議做出貢獻。
特別感謝以下團隊和組織:
- Meta開源了LLama 2和FLORES-200數據集
- Nguyen等人開源了CulturaX數據集
- CohereAI發佈了AYA-101並開源了多語言指令微調數據集
- EleutherAI提供了開源評估框架
- Hugging Face-H4團隊開源了Zephyr訓練方法和對齊手冊倉庫
引用SambaLingo
@misc{csaki2024sambalingo,
title={SambaLingo: Teaching Large Language Models New Languages},
author={Zoltan Csaki and Bo Li and Jonathan Li and Qiantong Xu and Pian Pawakapan and Leon Zhang and Yun Du and Hengyu Zhao and Changran Hu and Urmish Thakker},
year={2024},
eprint={2404.05829},
archivePrefix={arXiv},
primaryClass={cs.CL}
}