🚀 Aya-23-35B模型介绍
Aya 23是一个经过指令微调的模型的开放权重研究版本,具备高度先进的多语言能力。它将高性能的预训练Command系列模型与最近发布的Aya集合相结合,打造出一个强大的多语言大语言模型,支持23种语言。
重要提示
- 这是Aya的旧版本。最新版本是Aya Expanse 32B,可在此处获取。我们还有多模态版本Aya Vision 32B,可在此处获取。
- 你可以在我们托管的Hugging Face空间此处中,在下载权重之前试用最新的Aya模型。
🚀 快速开始
安装
请从包含此模型必要更改的源仓库安装transformers
:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-23-35B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
使用示例
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
示例笔记本
此笔记本展示了Aya 23(8B)的详细使用方法,包括推理和使用QLoRA进行微调。
✨ 主要特性
- 多语言能力:支持23种语言,包括阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
- 高性能:将高性能的预训练Command系列模型与Aya集合相结合。
- 长上下文处理:上下文长度达到8192。
📚 详细文档
模型概述
Aya 23是一个开放权重的研究版本,是经过指令微调的模型,具有高度先进的多语言能力。本模型卡对应Aya 23模型的350亿参数版本。我们还发布了80亿参数版本,可在此处找到。
模型详情
- 输入:模型仅接受文本输入。
- 输出:模型仅生成文本输出。
- 模型架构:Aya-23-35B是一个自回归语言模型,使用了优化的Transformer架构。在预训练之后,该模型进行了指令微调(IFT)以遵循人类指令。
- 支持语言:模型针对多语言进行了特别优化,支持23种语言,包括阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
- 上下文长度:8192
评估

有关基础模型、数据、指令微调以及评估的更多详细信息,请参考Aya 23技术报告。
模型卡联系信息
如果对本模型卡中的细节有错误或额外问题,请联系labs@cohere.com。
使用条款
我们希望通过向世界各地的研究人员发布高性能多语言模型的权重,使基于社区的研究工作更加容易开展。此模型受CC - BY - NC许可协议的约束,同时还需要遵守Cohere Lab的可接受使用政策。
立即试用模型
你可以在Cohere playground中试用Aya 23。你也可以在我们专用的Hugging Face空间此处中使用它。
引用信息
@misc{aryabumi2024aya,
title={Aya 23: Open Weight Releases to Further Multilingual Progress},
author={Viraat Aryabumi and John Dang and Dwarak Talupuru and Saurabh Dash and David Cairuz and Hangyu Lin and Bharat Venkitesh and Madeline Smith and Kelly Marchisio and Sebastian Ruder and Acyr Locatelli and Julia Kreutzer and Nick Frosst and Phil Blunsom and Marzieh Fadaee and Ahmet Üstün and Sara Hooker},
year={2024},
eprint={2405.15032},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
模型相关信息表格