🚀 SambaLingo土耳其語基礎模型
SambaLingo土耳其語基礎模型是一個預訓練的雙語(土耳其語和英語)模型。它基於Llama - 2 - 7b,通過在Cultura - X數據集的土耳其語部分的420億個標記上進行訓練,將其適配到土耳其語。該模型在困惑度和FLORES - 200翻譯方面取得了最先進的評估結果。若需該模型的聊天版本,請查看sambanovasystems/SambaLingo - Turkish - Chat,或在SambaLingo聊天空間中試用。
🚀 快速開始
使用Hugging Face加載模型
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base")
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base", device_map="auto", torch_dtype="auto")
建議的推理參數
由於這是一個預訓練的檢查點,建議將do_sample
設置為False
。
提示準則
此模型是一個預訓練的檢查點,為了有效使用它,請使用帶有示例的少樣本提示。唯一需要的其他提示模板是Llama分詞器的標準<s>
(BOS)標記。如果您想直接用問題或查詢與該模型交互,請使用已與人的偏好對齊的聊天版本模型sambanovasystems/SambaLingo - Turkish - Chat。
✨ 主要特性
- 基於Llama 2進行預訓練,適配土耳其語,支持雙語(土耳其語和英語)。
- 在困惑度和FLORES - 200翻譯方面取得了最先進的評估結果。
📦 安裝指南
使用Hugging Face加載模型的代碼如下:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base")
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base", device_map="auto", torch_dtype="auto")
📚 詳細文檔
模型描述
訓練詳情
所有預訓練均在Cultura - X數據集上進行。按照Csaki等人的建議,將數據混合為75%待適配語言的數據和25%的英語數據。將數據打包成長度為4096的序列,並確保在學習一個標記時,只關注相應文本文檔上下文中的先前標記。訓練時使用的全局批量大小為1024,序列長度為4096,最大學習率為1e - 4(採用餘弦衰減),熱身比例為0.01,權重衰減為0.1。
分詞器詳情
通過從新語言中添加多達25000個不重疊的標記,將基礎Llama模型的詞彙量從32000個標記擴展到57000個標記。
評估
評估結果請參閱我們的論文:SambaLingo: Teaching Large Language Models New Languages
使用方式
直接使用
該模型的使用受Meta的Llama 2社區許可協議約束。請在下載模型權重之前查看並接受該許可。
超出範圍的使用
SambaLingo不應用於以下場景:
- 關鍵任務應用程序
- 涉及他人安全的應用程序
- 做出非常重要的決策
偏差、風險和侷限性
與所有大語言模型一樣,SambaLingo存在一定的侷限性:
- 幻覺:模型有時可能會生成聽起來合理但事實上不正確或不相關的信息。
- 代碼切換:模型可能會在單個響應中無意地在語言或方言之間切換,影響輸出的連貫性和可理解性。
- 重複:模型可能會產生重複的短語或句子,導致響應的吸引力和信息量降低。
- 編碼和數學:模型在生成準確代碼或解決複雜數學問題方面的性能可能有限。
- 毒性:模型可能會無意中生成包含不適當或有害內容的響應。
🔧 技術細節
訓練數據
所有預訓練均在Cultura - X數據集上進行。按照Csaki等人的建議,將數據混合為75%待適配語言的數據和25%的英語數據。
訓練參數
訓練時使用的全局批量大小為1024,序列長度為4096,最大學習率為1e - 4(採用餘弦衰減),熱身比例為0.01,權重衰減為0.1。
分詞器
通過從新語言中添加多達25000個不重疊的標記,將基礎Llama模型的詞彙量從32000個標記擴展到57000個標記。
📄 許可證
該模型的使用受Meta的Llama 2社區許可協議約束。
致謝
我們衷心感謝開源AI社區;如果沒有開源,這項工作是不可能完成的。SambaNova支持開源社區,並希望積極為這一倡議做出貢獻。
我們特別感謝以下團體:
- Meta開源了LLama 2和FLORES - 200數據集
- Nguyen等人開源了CulturaX數據集
- CohereAI發佈了AYA - 101並開源了一個多語言指令調優數據集
- EleutherAI提供了開源評估框架
- Hugging Face - H4團隊開源了Zephyr訓練配方和對齊手冊倉庫
引用SambaLingo
@misc{csaki2024sambalingo,
title={SambaLingo: Teaching Large Language Models New Languages},
author={Zoltan Csaki and Bo Li and Jonathan Li and Qiantong Xu and Pian Pawakapan and Leon Zhang and Yun Du and Hengyu Zhao and Changran Hu and Urmish Thakker},
year={2024},
eprint={2404.05829},
archivePrefix={arXiv},
primaryClass={cs.CL}
}