🚀 SambaLingo土耳其语基础模型
SambaLingo土耳其语基础模型是一个预训练的双语(土耳其语和英语)模型。它基于Llama - 2 - 7b,通过在Cultura - X数据集的土耳其语部分的420亿个标记上进行训练,将其适配到土耳其语。该模型在困惑度和FLORES - 200翻译方面取得了最先进的评估结果。若需该模型的聊天版本,请查看sambanovasystems/SambaLingo - Turkish - Chat,或在SambaLingo聊天空间中试用。
🚀 快速开始
使用Hugging Face加载模型
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base")
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base", device_map="auto", torch_dtype="auto")
建议的推理参数
由于这是一个预训练的检查点,建议将do_sample
设置为False
。
提示准则
此模型是一个预训练的检查点,为了有效使用它,请使用带有示例的少样本提示。唯一需要的其他提示模板是Llama分词器的标准<s>
(BOS)标记。如果您想直接用问题或查询与该模型交互,请使用已与人的偏好对齐的聊天版本模型sambanovasystems/SambaLingo - Turkish - Chat。
✨ 主要特性
- 基于Llama 2进行预训练,适配土耳其语,支持双语(土耳其语和英语)。
- 在困惑度和FLORES - 200翻译方面取得了最先进的评估结果。
📦 安装指南
使用Hugging Face加载模型的代码如下:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base")
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base", device_map="auto", torch_dtype="auto")
📚 详细文档
模型描述
训练详情
所有预训练均在Cultura - X数据集上进行。按照Csaki等人的建议,将数据混合为75%待适配语言的数据和25%的英语数据。将数据打包成长度为4096的序列,并确保在学习一个标记时,只关注相应文本文档上下文中的先前标记。训练时使用的全局批量大小为1024,序列长度为4096,最大学习率为1e - 4(采用余弦衰减),热身比例为0.01,权重衰减为0.1。
分词器详情
通过从新语言中添加多达25000个不重叠的标记,将基础Llama模型的词汇量从32000个标记扩展到57000个标记。
评估
评估结果请参阅我们的论文:SambaLingo: Teaching Large Language Models New Languages
使用方式
直接使用
该模型的使用受Meta的Llama 2社区许可协议约束。请在下载模型权重之前查看并接受该许可。
超出范围的使用
SambaLingo不应用于以下场景:
- 关键任务应用程序
- 涉及他人安全的应用程序
- 做出非常重要的决策
偏差、风险和局限性
与所有大语言模型一样,SambaLingo存在一定的局限性:
- 幻觉:模型有时可能会生成听起来合理但事实上不正确或不相关的信息。
- 代码切换:模型可能会在单个响应中无意地在语言或方言之间切换,影响输出的连贯性和可理解性。
- 重复:模型可能会产生重复的短语或句子,导致响应的吸引力和信息量降低。
- 编码和数学:模型在生成准确代码或解决复杂数学问题方面的性能可能有限。
- 毒性:模型可能会无意中生成包含不适当或有害内容的响应。
🔧 技术细节
训练数据
所有预训练均在Cultura - X数据集上进行。按照Csaki等人的建议,将数据混合为75%待适配语言的数据和25%的英语数据。
训练参数
训练时使用的全局批量大小为1024,序列长度为4096,最大学习率为1e - 4(采用余弦衰减),热身比例为0.01,权重衰减为0.1。
分词器
通过从新语言中添加多达25000个不重叠的标记,将基础Llama模型的词汇量从32000个标记扩展到57000个标记。
📄 许可证
该模型的使用受Meta的Llama 2社区许可协议约束。
致谢
我们衷心感谢开源AI社区;如果没有开源,这项工作是不可能完成的。SambaNova支持开源社区,并希望积极为这一倡议做出贡献。
我们特别感谢以下团体:
- Meta开源了LLama 2和FLORES - 200数据集
- Nguyen等人开源了CulturaX数据集
- CohereAI发布了AYA - 101并开源了一个多语言指令调优数据集
- EleutherAI提供了开源评估框架
- Hugging Face - H4团队开源了Zephyr训练配方和对齐手册仓库
引用SambaLingo
@misc{csaki2024sambalingo,
title={SambaLingo: Teaching Large Language Models New Languages},
author={Zoltan Csaki and Bo Li and Jonathan Li and Qiantong Xu and Pian Pawakapan and Leon Zhang and Yun Du and Hengyu Zhao and Changran Hu and Urmish Thakker},
year={2024},
eprint={2404.05829},
archivePrefix={arXiv},
primaryClass={cs.CL}
}