🚀 Aya-Expanse-32B模型介绍
Aya Expanse 32B 是一款具有高度先进多语言能力的模型的开放权重研究版本。它将高性能的预训练 Command系列 模型与 Cohere Labs 一年的专项研究成果相结合,这些研究包括 数据套利、多语言偏好训练、安全调优 和 模型融合。最终得到的是一个支持23种语言的强大多语言大语言模型。
此模型卡片对应Aya Expanse模型的320亿参数版本。我们还发布了80亿参数版本,你可以 在此 找到。
🚀 快速开始
试用Aya Expanse
你可以使用 Cohere playground 或我们的 Hugging Face Space 进行交互式探索。
如何使用Aya Expanse
安装transformers库并按如下方式加载Aya Expanse 32B:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-expanse-32b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
示例笔记本
- 微调:详细微调笔记本。
- 社区贡献用例:以下由 Cohere Labs社区 成员贡献的笔记本展示了Aya Expanse在不同用例中的应用:
✨ 主要特性
- 多语言支持:该模型特别针对多语言进行了优化,支持23种语言,包括阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
- 高性能架构:Aya Expanse 32B是一个自回归语言模型,采用了优化的Transformer架构。训练后处理包括监督微调、偏好训练和模型融合。
- 长上下文处理:上下文长度可达128K。
📚 详细文档
模型详情
属性 |
详情 |
输入 |
模型仅接受文本输入。 |
输出 |
模型仅生成文本。 |
模型架构 |
Aya Expanse 32B是一个自回归语言模型,采用优化的Transformer架构。训练后包括监督微调、偏好训练和模型融合。 |
支持语言 |
阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语 |
上下文长度 |
128K |
评估
我们使用 Aya评估套件数据集 中的 dolly_human_edited
子集和基于 Arena-Hard-Auto数据集 并翻译成Aya Expanse支持的23种语言的m-ArenaHard数据集,将Aya Expanse 32B与Gemma 2 27B、Llama 3.1 70B、Mixtral 8x22B和Qwen 2.5 35B进行了对比评估。胜率使用gpt - 4o - 2024 - 08 - 06作为评判标准。为了进行保守基准测试,我们报告了gpt - 4o - 2024 - 08 - 06的结果,不过gpt - 4o - mini的得分显示出更强的性能。
用于评估Aya Expanse能力的m-ArenaHard数据集 在此 公开可用。
WhatsApp集成
你还可以通过流行的消息服务WhatsApp与Aya Expanse进行对话。使用此 链接 打开与Aya Expanse的WhatsApp聊天框。如果你没有在设备上下载WhatsApp,可能需要先下载;或者如果你在手机上安装了它,可以按照屏幕上的说明将手机与WhatsApp Web进行关联。最后,你将看到一个文本窗口,可用于与模型聊天。有关我们的WhatsApp集成的更多详细信息 在此 提供。
📄 许可证
本模型受 CC-BY-NC 许可证约束,同时还需遵守 Cohere Lab的可接受使用政策。
模型卡片联系方式
如果你发现此模型卡片中的错误或有其他问题,请联系labs@cohere.com。
引用
你可以使用以下方式引用Aya Expanse:
@misc{dang2024ayaexpansecombiningresearch,
title={Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier},
author={John Dang and Shivalika Singh and Daniel D'souza and Arash Ahmadian and Alejandro Salamanca and Madeline Smith and Aidan Peppin and Sungjin Hong and Manoj Govindassamy and Terrence Zhao and Sandra Kublik and Meor Amer and Viraat Aryabumi and Jon Ander Campos and Yi-Chern Tan and Tom Kocmi and Florian Strub and Nathan Grinsztajn and Yannis Flet-Berliac and Acyr Locatelli and Hangyu Lin and Dwarak Talupuru and Bharat Venkitesh and David Cairuz and Bowen Yang and Tim Chung and Wei-Yin Ko and Sylvie Shang Shi and Amir Shukayev and Sammie Bae and Aleksandra Piktus and Roman Castagné and Felipe Cruz-Salinas and Eddie Kim and Lucas Crawhall-Stein and Adrien Morisot and Sudip Roy and Phil Blunsom and Ivan Zhang and Aidan Gomez and Nick Frosst and Marzieh Fadaee and Beyza Ermis and Ahmet Üstün and Sara Hooker},
year={2024},
eprint={2412.04261},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.04261},
}