Aya-23-8B开源指令微调模型 - 支持23种语言的多语言交流神器

首页

Aya 23 8B

由 CohereLabs 开发

Aya-23是一个开放权重的指令微调模型研究版本，具有高度先进的多语言能力，支持23种语言。

大型语言模型

Transformers

支持多种语言#23种语言支持 #指令微调 #开放权重研究

下载量 10.28k

发布时间 : 4/25/2025

模型简介

Aya 23是一个强大的多语言大语言模型，结合了高性能的预训练Command系列模型与Aya数据集，专注于多语言指令微调。

模型特点

多语言支持

支持23种语言的文本生成和指令跟随。

指令微调

经过指令微调，能够更好地理解和执行人类指令。

开放权重

模型权重开放，可用于非商业用途的研究和开发。

模型能力

多语言文本生成

指令跟随

对话生成

使用案例

多语言应用

多语言客服

用于多语言客服场景，生成自然流畅的回复。

教育辅助

辅助语言学习，生成多语言的学习材料和练习。

研究

多语言模型研究

用于研究多语言模型的性能和能力。

🚀 Aya-23-8B 模型卡片

Aya-23-8B 是一款具有高度先进多语言能力的指令微调模型的开放权重研究版本，支持 23 种语言，能为多语言场景提供强大的文本处理能力。

🚀 快速开始

模型版本说明

注意：这是 Aya 的旧版本。最新版本是 Aya Expanse 8B，可在此处获取。我们还有多模态变体 Aya Vision 8B，可在此处获取。

试用最新模型

你可以在我们托管的 Hugging Face 空间此处中，在下载权重之前试用最新的 Aya 模型。

✨ 主要特性

多语言能力：Aya 23 专注于将高性能的预训练 Command 系列模型与最近发布的 Aya 数据集相结合，最终得到一个支持 23 种语言的强大多语言大语言模型。这 23 种语言包括阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
模型版本：本模型卡片对应 Aya 23 模型的 80 亿参数版本。我们还发布了 350 亿参数版本，可在此处找到。

📦 安装指南

请从包含此模型必要更改的源仓库安装 transformers：

# pip install transformers==4.41.1
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "CohereLabs/aya-23-8B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

💻 使用示例

基础用法

# Format message with the command-r-plus chat template
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

gen_tokens = model.generate(
    input_ids, 
    max_new_tokens=100, 
    do_sample=True, 
    temperature=0.3,
    )

gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)

示例笔记本

此笔记本展示了 Aya 23 (8B) 的详细使用方法，包括使用 QLoRA 进行推理和微调。

📚 详细文档

模型详情

输入：模型仅接受文本输入。
输出：模型仅生成文本输出。
模型架构：Aya-23-8B 是一个自回归语言模型，使用优化的 Transformer 架构。预训练后，该模型进行了指令微调（IFT）以遵循人类指令。
支持语言：该模型针对多语言进行了特别优化，支持以下语言：阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
上下文长度：8192

评估

多语言基准测试平均胜率

有关基础模型、数据、指令调优和评估的更多详细信息，请参考 Aya 23 技术报告。

模型卡片联系信息

如果对本模型卡片中的细节有错误或其他问题，请联系 labs@cohere.com。

使用条款

我们希望通过向世界各地的研究人员发布高性能多语言模型的权重，使基于社区的研究工作更加容易开展。此模型受 CC - BY - NC 许可证约束，并要求遵守 Cohere Lab 的可接受使用政策。

立即试用模型

你可以在 Cohere playground 中试用 Aya 23。你也可以在我们专用的 Hugging Face 空间此处中使用它。

引用信息

@misc{aryabumi2024aya,
      title={Aya 23: Open Weight Releases to Further Multilingual Progress}, 
      author={Viraat Aryabumi and John Dang and Dwarak Talupuru and Saurabh Dash and David Cairuz and Hangyu Lin and Bharat Venkitesh and Madeline Smith and Kelly Marchisio and Sebastian Ruder and Acyr Locatelli and Julia Kreutzer and Nick Frosst and Phil Blunsom and Marzieh Fadaee and Ahmet Üstün and Sara Hooker},
      year={2024},
      eprint={2405.15032},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

📄 许可证

本模型使用 CC - BY - NC 许可证，同时需要遵守 Cohere Lab 的可接受使用政策。

额外信息

推理：false
库名称：transformers
支持语言：英语、法语、德语、西班牙语、意大利语、葡萄牙语、日语、韩语、中文、阿拉伯语、希腊语、波斯语、波兰语、印尼语、捷克语、希伯来语、印地语、荷兰语、罗马尼亚语、俄语、土耳其语、乌克兰语、越南语
额外授权提示：通过提交此表单，你同意许可协议，并确认你提供的信息将根据 Cohere 的隐私政策进行收集、使用和共享。你将收到有关 Cohere Labs 和 Cohere 研究、活动、产品和服务的电子邮件更新。你可以随时取消订阅。
额外授权字段：
- 姓名：文本输入
- 所属机构：文本输入
- 国家：下拉选择（包含众多国家选项）
仅用于非商业用途：复选框

属性	详情
模型类型	自回归语言模型，使用优化的 Transformer 架构
训练数据	结合预训练的 Command 系列模型与 Aya 数据集
开发团队	Cohere Labs 和 Cohere
联系方式	Cohere Labs: cohere.for.ai
许可证	CC - BY - NC，需遵守 Cohere Lab 的可接受使用政策
模型名称	aya - 23 - 8B
模型大小	80 亿参数