🚀 Aya-23-8B 模型卡片
Aya-23-8B 是一款具有高度先进多语言能力的指令微调模型的开放权重研究版本,支持 23 种语言,能为多语言场景提供强大的文本处理能力。
🚀 快速开始
模型版本说明
注意:这是 Aya 的旧版本。最新版本是 Aya Expanse 8B,可在此处获取。我们还有多模态变体 Aya Vision 8B,可在此处获取。
试用最新模型
你可以在我们托管的 Hugging Face 空间此处中,在下载权重之前试用最新的 Aya 模型。
✨ 主要特性
- 多语言能力:Aya 23 专注于将高性能的预训练 Command 系列模型与最近发布的 Aya 数据集相结合,最终得到一个支持 23 种语言的强大多语言大语言模型。这 23 种语言包括阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
- 模型版本:本模型卡片对应 Aya 23 模型的 80 亿参数版本。我们还发布了 350 亿参数版本,可在此处找到。
📦 安装指南
请从包含此模型必要更改的源仓库安装 transformers:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-23-8B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
💻 使用示例
基础用法
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
示例笔记本
此笔记本展示了 Aya 23 (8B) 的详细使用方法,包括使用 QLoRA 进行推理和微调。
📚 详细文档
模型详情
- 输入:模型仅接受文本输入。
- 输出:模型仅生成文本输出。
- 模型架构:Aya-23-8B 是一个自回归语言模型,使用优化的 Transformer 架构。预训练后,该模型进行了指令微调(IFT)以遵循人类指令。
- 支持语言:该模型针对多语言进行了特别优化,支持以下语言:阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
- 上下文长度:8192
评估

有关基础模型、数据、指令调优和评估的更多详细信息,请参考 Aya 23 技术报告。
模型卡片联系信息
如果对本模型卡片中的细节有错误或其他问题,请联系 labs@cohere.com。
使用条款
我们希望通过向世界各地的研究人员发布高性能多语言模型的权重,使基于社区的研究工作更加容易开展。此模型受 CC - BY - NC 许可证约束,并要求遵守 Cohere Lab 的可接受使用政策。
立即试用模型
你可以在 Cohere playground 中试用 Aya 23。你也可以在我们专用的 Hugging Face 空间此处中使用它。
引用信息
@misc{aryabumi2024aya,
title={Aya 23: Open Weight Releases to Further Multilingual Progress},
author={Viraat Aryabumi and John Dang and Dwarak Talupuru and Saurabh Dash and David Cairuz and Hangyu Lin and Bharat Venkitesh and Madeline Smith and Kelly Marchisio and Sebastian Ruder and Acyr Locatelli and Julia Kreutzer and Nick Frosst and Phil Blunsom and Marzieh Fadaee and Ahmet Üstün and Sara Hooker},
year={2024},
eprint={2405.15032},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本模型使用 CC - BY - NC 许可证,同时需要遵守 Cohere Lab 的可接受使用政策。
额外信息
- 推理:false
- 库名称:transformers
- 支持语言:英语、法语、德语、西班牙语、意大利语、葡萄牙语、日语、韩语、中文、阿拉伯语、希腊语、波斯语、波兰语、印尼语、捷克语、希伯来语、印地语、荷兰语、罗马尼亚语、俄语、土耳其语、乌克兰语、越南语
- 额外授权提示:通过提交此表单,你同意 许可协议,并确认你提供的信息将根据 Cohere 的 隐私政策 进行收集、使用和共享。你将收到有关 Cohere Labs 和 Cohere 研究、活动、产品和服务的电子邮件更新。你可以随时取消订阅。
- 额外授权字段:
- 姓名:文本输入
- 所属机构:文本输入
- 国家:下拉选择(包含众多国家选项)
- 仅用于非商业用途:复选框