模型简介
模型特点
模型能力
使用案例
🚀 Aya Expanse 8B模型介绍
Aya Expanse 8B 是一款具有高度先进多语言能力的模型的开放权重研究版本。它将高性能的预训练 Command系列 模型与 Cohere Labs 一年的专注研究成果相结合,这些研究成果包括 数据套利、多语言偏好训练、安全调优 和 模型融合。最终得到的是一个强大的多语言大语言模型。
🚀 快速开始
试用Aya Expanse
你可以使用 Cohere playground 或我们的 Hugging Face Space 进行交互式探索。
安装与使用
安装 transformers
库并按如下方式加载Aya Expanse 8B:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# Format the message with the chat template
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
示例笔记本
- 微调:详细微调笔记本。
- 社区贡献用例:以下由 Cohere Labs社区 成员贡献的笔记本展示了Aya Expanse在不同用例中的应用:
✨ 主要特性
- 多语言能力:支持23种语言,包括阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
- 高性能:结合了多种先进的研究成果,如数据套利、多语言偏好训练、安全调优和模型融合。
📦 安装指南
安装 transformers
库并加载Aya Expanse 8B的代码如下:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# Format the message with the chat template
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
📚 详细文档
模型详情
- 输入:模型仅接受文本输入。
- 输出:模型仅生成文本输出。
- 模型架构:Aya Expanse 8B是一个自回归语言模型,使用了优化的Transformer架构。训练后包括监督微调、偏好训练和模型融合。
- 支持语言:该模型针对多语言进行了特别优化,支持23种语言,具体语言列表见上文。
- 上下文长度:8K
更多关于模型训练的详细信息,请查看 我们的博客文章。
评估
我们使用 Aya评估套件数据集 中的 dolly_human_edited
子集和基于 Arena-Hard-Auto数据集 并翻译为Aya Expanse 8B支持的23种语言的m-ArenaHard数据集,将Aya Expanse 8B与Gemma 2 9B、Llama 3.1 8B、Ministral 8B和Qwen 2.5 7B进行了评估。胜率使用gpt-4o-2024-08-06作为评判标准。为了进行保守基准测试,我们报告了gpt-4o-2024-08-06的结果,不过gpt-4o-mini的得分显示出更强的性能。
用于评估Aya Expanse能力的m-ArenaHard数据集可在 此处 公开获取。
WhatsApp集成
你还可以通过流行的消息服务WhatsApp与Aya Expanse进行对话。使用此 链接 打开与Aya Expanse的WhatsApp聊天框。如果你没有在设备上下载WhatsApp,可能需要先下载;或者,如果你在手机上安装了WhatsApp,可以按照屏幕上的说明将手机与WhatsApp Web链接起来。最后,你将看到一个文本窗口,可用于与模型聊天。有关我们的WhatsApp集成的更多详细信息,请查看 此处。
模型卡片联系信息
如果你对本模型卡片中的细节有错误反馈或额外问题,请联系 labs@cohere.com。
使用条款
我们希望通过向世界各地的研究人员发布高性能多语言模型的权重,使基于社区的研究工作更加容易开展。该模型受 CC-BY-NC 许可协议的约束,同时还需要遵守 Cohere Lab的可接受使用政策。
引用
你可以使用以下方式引用Aya Expanse:
@misc{dang2024ayaexpansecombiningresearch,
title={Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier},
author={John Dang and Shivalika Singh and Daniel D'souza and Arash Ahmadian and Alejandro Salamanca and Madeline Smith and Aidan Peppin and Sungjin Hong and Manoj Govindassamy and Terrence Zhao and Sandra Kublik and Meor Amer and Viraat Aryabumi and Jon Ander Campos and Yi-Chern Tan and Tom Kocmi and Florian Strub and Nathan Grinsztajn and Yannis Flet-Berliac and Acyr Locatelli and Hangyu Lin and Dwarak Talupuru and Bharat Venkitesh and David Cairuz and Bowen Yang and Tim Chung and Wei-Yin Ko and Sylvie Shang Shi and Amir Shukayev and Sammie Bae and Aleksandra Piktus and Roman Castagné and Felipe Cruz-Salinas and Eddie Kim and Lucas Crawhall-Stein and Adrien Morisot and Sudip Roy and Phil Blunsom and Ivan Zhang and Aidan Gomez and Nick Frosst and Marzieh Fadaee and Beyza Ermis and Ahmet Üstün and Sara Hooker},
year={2024},
eprint={2412.04261},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.04261},
}
信息表格
属性 | 详情 |
---|---|
模型类型 | 自回归语言模型,使用优化的Transformer架构 |
训练数据 | 结合了多种研究成果,包括数据套利、多语言偏好训练、安全调优和模型融合 |
支持语言 | 阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语 |
上下文长度 | 8K |
许可证 | CC-BY-NC,需遵守 Cohere Lab's Acceptable Use Policy |
开发团队 | Cohere Labs |
联系信息 | labs@cohere.com |
模型大小 | 80亿参数 |
其他版本 | Aya Expanse 32B |
评估数据集 | Aya评估套件数据集 中的 dolly_human_edited 子集和m-ArenaHard数据集 |
评估评判标准 | gpt-4o-2024-08-06 |
WhatsApp集成链接 | https://wa.me/14313028498 |
详细信息链接 | 博客文章、m-ArenaHard数据集、WhatsApp集成详细信息 |
引用信息 | 见上文引用代码 |



