🚀 SambaLingo-Arabic-Chat
SambaLingo-Arabic-Chat 是一個與人的偏好對齊的聊天模型,支持阿拉伯語和英語。它基於基礎模型 SambaLingo-Arabic-Base,使用直接偏好優化方法進行訓練。基礎模型通過在 Cultura-X 數據集的阿拉伯語部分的 630 億個標記上進行訓練,將 Llama-2-7b 適配到阿拉伯語。你可以在 SambaLingo-chat-space 中試用該模型。
🚀 快速開始
使用 Hugging Face 加載模型
加載分詞器時,請確保設置 use_fast=False
。
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Arabic-Chat", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Arabic-Chat", device_map="auto", torch_dtype="auto")
與模型管道進行交互
加載分詞器時,請確保設置 use_fast=False
。
from transformers import pipeline
pipe = pipeline("text-generation", model="sambanovasystems/SambaLingo-Arabic-Chat", device_map="auto", use_fast=False)
messages = [
{"role": "user", "content": {YOUR_QUESTION}},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt)[0]
outputs = outputs["generated_text"]
建議的推理參數
- 溫度(Temperature):0.8
- 重複懲罰(Repetition penalty):1.0
- 核採樣概率(Top-p):0.9
提示指南
要使用此模型,請使用以下聊天模板:
<|user|>\n{question}</s>\n<|assistant|>\n
提示示例和生成結果
<|user|>
كملك، هل الاحسن أن تكون محبوب أو مخيف</s>
<|assistant|>
لا أستطيع إبداء الرأي أو امتلاك المشاعر، لكن يمكنني تقديم إجابة موضوعية على هذا السؤال. في حين أن كونك محبوبًا يمكن أن يجلب السعادة والرضا، فإن كونك مخيفًا يمكن أن يكون له أيضًا فوائده. على سبيل المثال، يمكن أن يكون الشخص المخيف فعالاً في ردع السلوكيات أو المواقف غير المرغوب فيها، مثل التخريب أو التنمر. ومع ذلك، من المهم أن نتذكر أن الحب والقبول هما قيمتان مهمتان يجب السعي لتحقيقهما، وأن كونك محبوبًا لا ينبغي أن يكون الهدف النهائي. وبدلاً من ذلك، يجب أن نسعى جاهدين لنكون طيبين ورحيمين مع الآخرين، مع الاعتراف أيضًا بأن كل شخص لديه نقاط القوة والضعف الخاصة به.
✨ 主要特性
- 多語言支持:支持阿拉伯語和英語兩種語言。
- 與人的偏好對齊:通過直接偏好優化方法進行訓練,生成的回答更符合人類偏好。
📚 詳細文檔
模型描述
訓練詳情
對齊階段遵循 Zephyr-7B 的方法,包括兩個階段:監督微調(SFT)和直接性能優化(DPO)。
SFT 階段在 ultrachat_200k 數據集和其谷歌翻譯版本的混合數據集上進行。訓練一個輪次,全局批量大小為 512,最大序列長度為 2048 個標記。使用線性衰減學習率 2e-5 和 10% 的預熱。
DPO 階段在 ultrafeedback 數據集和 cai-conversation-harmless 數據集上進行,混合了 10% 的谷歌翻譯數據。訓練三個輪次,全局批量大小為 32。使用線性衰減學習率 5e-7、10% 的預熱和 β=0.1 作為 DPO 的正則化因子。
分詞器詳情
通過添加最多 25,000 個來自新語言的非重疊標記,將基礎 llama 模型的詞彙表從 32,000 個標記擴展到 57,000 個標記。
評估
評估結果請參考我們的論文:SambaLingo: Teaching Large Language Models New Languages
使用方式
直接使用
此模型的使用受 Meta 的 Llama 2 社區許可協議 約束。請在下載模型權重之前查看並接受許可協議。
超出適用範圍的使用
SambaLingo 不應用於以下場景:
- 關鍵任務應用程序
- 涉及他人安全的應用程序
- 做出非常重要的決策
偏差、風險和侷限性
與所有大語言模型一樣,SambaLingo 有一定的侷限性:
- 幻覺問題:模型有時可能會生成聽起來合理但事實上不正確或不相關的信息。
- 語言切換:模型可能會在單個回覆中無意地在語言或方言之間切換,影響輸出的連貫性和可理解性。
- 重複問題:模型可能會產生重複的短語或句子,導致回覆的吸引力和信息量降低。
- 編碼和數學能力:模型在生成準確代碼或解決複雜數學問題方面的性能可能有限。
- 毒性問題:模型可能會無意中生成包含不適當或有害內容的回覆。
致謝
我們衷心感謝開源人工智能社區;如果沒有開源,這項工作將無法完成。SambaNova 支持開源社區,並希望積極為這一倡議做出貢獻。
我們特別感謝以下團體:
- Meta 開源了 LLama 2 和 FLORES-200 數據集
- Nguyen 等人開源了 CulturaX 數據集
- CohereAI 發佈了 AYA-101 並開源了多語言指令調優數據集
- EleutherAI 提供了開源評估框架
- Hugging Face-H4 團隊開源了 zephyr 訓練方法和對齊手冊倉庫
引用 SambaLingo
@misc{csaki2024sambalingo,
title={SambaLingo: Teaching Large Language Models New Languages},
author={Zoltan Csaki and Bo Li and Jonathan Li and Qiantong Xu and Pian Pawakapan and Leon Zhang and Yun Du and Hengyu Zhao and Changran Hu and Urmish Thakker},
year={2024},
eprint={2404.05829},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
信息表格
重要提示
⚠️ 重要提示
使用此模型受 Meta 的 Llama 2 社區許可協議 約束。請在下載模型權重之前查看並接受許可協議。
💡 使用建議
加載分詞器時,請確保設置 use_fast=False
。建議的推理參數為:溫度 0.8、重複懲罰 1.0、核採樣概率 0.9。使用時請使用指定的聊天模板 <|user|>\n{question}</s>\n<|assistant|>\n
。