Aya 101开源多语言生成式语言模型 - 支持101种语言指令，表现超同类

首页

Aya 101

由 CohereLabs 开发

Aya 101 是一个支持101种语言指令的大规模多语言生成式语言模型，在各类评估中优于同类模型。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #多语言指令微调 #101种语言支持 #开源大模型

下载量 3,468

发布时间 : 2/8/2024

模型简介

Aya 101 是一个基于Transformer架构的自回归式超大规模多语言模型，支持101种语言的指令理解和生成任务。

模型特点

超多语言支持

支持101种语言的指令理解和生成任务，覆盖资源丰富和资源匮乏的语言。

性能优越

在各类自动评估和人工评估中均优于同类模型如mT0和BLOOMZ。

开源许可

以Apache-2.0许可证发布，促进多语言技术的发展和共享。

大规模训练数据

训练数据包括xP3x、Aya数据集、Aya语料库等多个高质量多语言数据集。

模型能力

多语言文本生成

跨语言翻译

多语言问答

指令理解与执行

多语言对话

使用案例

语言翻译

土耳其语到英语翻译

将土耳其语文本翻译为英语

Aya is a multi-lingual language model

问答系统

印地语问答

回答印地语提出的问题

भारत में कई भाषाएँ हैं और विभिन्न भाषाओं के बोली जाने वाले लोग हैं। यह विभिन्नता भाषाई विविधता और सांस्कृतिक विविधता का परिणाम है

多语言应用

多语言对话系统

构建支持多种语言的对话系统

🚀 Aya 101模型介绍

Aya模型是一款强大的多语言生成式语言模型，能够处理101种语言的指令。尽管支持的语言数量是其他模型的两倍，但在各种自动和人工评估中，Aya的表现均优于mT0和BLOOMZ。该模型使用xP3x、Aya数据集、Aya集合、DataProvenance集合的一个子集以及ShareGPT-Command进行训练。我们以Apache-2.0许可证发布该模型的检查点，以推动多语言技术赋能多语言世界的使命。

Aya模型总结图

🚀 快速开始

安装依赖

# pip install -q transformers
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

checkpoint = "CohereLabs/aya-101"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
aya_model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)

示例代码

土耳其语到英语翻译

# Turkish to English translation
tur_inputs = tokenizer.encode("Translate to English: Aya cok dilli bir dil modelidir.", return_tensors="pt")
tur_outputs = aya_model.generate(tur_inputs, max_new_tokens=128)
print(tokenizer.decode(tur_outputs[0]))
# Aya is a multi-lingual language model

印地语问答

# Q: Why are there so many languages in India?
hin_inputs = tokenizer.encode("भारत में इतनी सारी भाषाएँ क्यों हैं?", return_tensors="pt")
hin_outputs = aya_model.generate(hin_inputs, max_new_tokens=128)
print(tokenizer.decode(hin_outputs[0]))
# Expected output: भारत में कई भाषाएँ हैं और विभिन्न भाषाओं के बोली जाने वाले लोग हैं। यह विभिन्नता भाषाई विविधता और सांस्कृतिक विविधता का परिणाम है। Translates to "India has many languages and people speaking different languages. This diversity is the result of linguistic diversity and cultural diversity."

✨ 主要特性

多语言支持：支持101种语言，包括但不限于英语、中文、阿拉伯语、日语等。
高性能表现：在多种自动和人工评估中，优于mT0和BLOOMZ。
开放访问：以Apache-2.0许可证发布检查点，方便社区使用和研究。

📦 安装指南

安装依赖：

pip install -q transformers

📚 详细文档

模型详情

微调信息

架构：与mt5-xxl相同。
微调时看到的样本数量：2500万。
批次大小：256。
硬件：TPUv4 - 128。
软件：T5X, Jax。

数据源

Aya模型在以下数据集上进行训练：

所有数据集都被子集化为mT5支持的101种语言。有关过滤和修剪的详细信息，请参阅论文。

评估

我们参考论文第5节进行了99种语言的多语言评估，包括判别和生成任务、人工评估以及涵盖保留任务和分布内性能的模拟胜率。

偏差、风险和局限性

有关我们在安全缓解方面的努力以及跨多种语言的毒性和偏差基准测试的详细概述，请参考论文的第6和7节：Aya模型：指令微调的开放访问多语言语言模型。

我们希望Aya模型的发布能够通过向社区研究开放一个开源的大规模多语言模型，使基于社区的红队测试成为可能。

🔧 技术细节

语言覆盖

点击查看覆盖的语言

以下是用于微调Aya模型的语言列表。我们根据Joshi等人，2020的语言分类，将语言分为高、中、低资源语言。有关更多详细信息，请参阅我们的论文。

ISO代码	语言名称	书写系统	语系	子分组	资源丰富度
afr	南非荷兰语	Latin	印欧语系	日耳曼语族	中
amh	阿姆哈拉语	Ge'ez	亚非语系	闪米特语族	低
ara	阿拉伯语	Arabic	亚非语系	闪米特语族	高
aze	阿塞拜疆语	Arabic/Latin	突厥语族	共同突厥语支	低
bel	白俄罗斯语	Cyrillic	印欧语系	波罗的 - 斯拉夫语族	中
ben	孟加拉语	Bengali	印欧语系	印度 - 雅利安语族	中
bul	保加利亚语	Cyrillic	印欧语系	波罗的 - 斯拉夫语族	中
cat	加泰罗尼亚语	Latin	印欧语系	意大利语族	高
ceb	宿务语	Latin	南岛语系	马来 - 波利尼西亚语族	中
ces	捷克语	Latin	印欧语系	波罗的 - 斯拉夫语族	高
cym	威尔士语	Latin	印欧语系	凯尔特语族	低
dan	丹麦语	Latin	印欧语系	日耳曼语族	中
deu	德语	Latin	印欧语系	日耳曼语族	高
ell	希腊语	Greek	印欧语系	希腊 - 弗里吉亚语族	中
eng	英语	Latin	印欧语系	日耳曼语族	高
epo	世界语	Latin	人造语言	世界语族	低
est	爱沙尼亚语	Latin	乌拉尔语系	芬兰语族	中
eus	巴斯克语	Latin	巴斯克语族	-	高
fin	芬兰语	Latin	乌拉尔语系	芬兰语族	高
fil	他加禄语	Latin	南岛语系	马来 - 波利尼西亚语族	中
fra	法语	Latin	印欧语系	意大利语族	高
fry	西弗里西亚语	Latin	印欧语系	日耳曼语族	低
gla	苏格兰盖尔语	Latin	印欧语系	凯尔特语族	低
gle	爱尔兰语	Latin	印欧语系	凯尔特语族	低
glg	加利西亚语	Latin	印欧语系	意大利语族	中
guj	古吉拉特语	Gujarati	印欧语系	印度 - 雅利安语族	低
hat	海地克里奥尔语	Latin	印欧语系	意大利语族	低
hau	豪萨语	Latin	亚非语系	乍得语族	低
heb	希伯来语	Hebrew	亚非语系	闪米特语族	中
hin	印地语	Devanagari	印欧语系	印度 - 雅利安语族	高
hun	匈牙利语	Latin	乌拉尔语系	-	高
hye	亚美尼亚语	Armenian	印欧语系	亚美尼亚语族	低
ibo	伊博语	Latin	大西洋 - 刚果语系	贝努埃 - 刚果语族	低
ind	印尼语	Latin	南岛语系	马来 - 波利尼西亚语族	中
isl	冰岛语	Latin	印欧语系	日耳曼语族	低
ita	意大利语	Latin	印欧语系	意大利语族	高
jav	爪哇语	Latin	南岛语系	马来 - 波利尼西亚语族	低
jpn	日语	Japanese	日本语系	日本语族	高
kan	卡纳达语	Kannada	达罗毗荼语系	南达罗毗荼语族	低
kat	格鲁吉亚语	Georgian	卡尔特维语系	格鲁吉亚 - 赞语支	中
kaz	哈萨克语	Cyrillic	突厥语族	共同突厥语支	中
khm	高棉语	Khmer	南亚语系	高棉语族	低
kir	吉尔吉斯语	Cyrillic	突厥语族	共同突厥语支	低
kor	韩语	Hangul	朝鲜语系	朝鲜语族	高
kur	库尔德语	Latin	印欧语系	伊朗语族	低
lao	老挝语	Lao	壮侗语系	侗台语族	低
lav	拉脱维亚语	Latin	印欧语系	波罗的 - 斯拉夫语族	中
lat	拉丁语	Latin	印欧语系	意大利语族	中
lit	立陶宛语	Latin	印欧语系	波罗的 - 斯拉夫语族	中
ltz	卢森堡语	Latin	印欧语系	日耳曼语族	低
mal	马拉雅拉姆语	Malayalam	达罗毗荼语系	南达罗毗荼语族	低
mar	马拉地语	Devanagari	印欧语系	印度 - 雅利安语族	低
mkd	马其顿语	Cyrillic	印欧语系	波罗的 - 斯拉夫语族	低
mlg	马达加斯加语	Latin	南岛语系	马来 - 波利尼西亚语族	低
mlt	马耳他语	Latin	亚非语系	闪米特语族	低
mon	蒙古语	Cyrillic	蒙古 - 契丹语系	蒙古语族	低
mri	毛利语	Latin	南岛语系	马来 - 波利尼西亚语族	低
msa	马来语	Latin	南岛语系	马来 - 波利尼西亚语族	中
mya	缅甸语	Myanmar	汉藏语系	缅羌语支	低
nep	尼泊尔语	Devanagari	印欧语系	印度 - 雅利安语族	低
nld	荷兰语	Latin	印欧语系	日耳曼语族	高
nor	挪威语	Latin	印欧语系	日耳曼语族	低
nso	北索托语	Latin	大西洋 - 刚果语系	贝努埃 - 刚果语族	低
nya	奇切瓦语	Latin	大西洋 - 刚果语系	贝努埃 - 刚果语族	低
ory	奥里亚语	Oriya	印欧语系	印度 - 雅利安语族	低
pan	旁遮普语	Gurmukhi	印欧语系	印度 - 雅利安语族	低
pes	波斯语	Arabic	印欧语系	伊朗语族	高
pol	波兰语	Latin	印欧语系	波罗的 - 斯拉夫语族	高
por	葡萄牙语	Latin	印欧语系	意大利语族	高
pus	普什图语	Arabic	印欧语系	伊朗语族	低
ron	罗马尼亚语	Latin	印欧语系	意大利语族	中
rus	俄语	Cyrillic	印欧语系	波罗的 - 斯拉夫语族	高
sin	僧伽罗语	Sinhala	印欧语系	印度 - 雅利安语族	低
slk	斯洛伐克语	Latin	印欧语系	波罗的 - 斯拉夫语族	中
slv	斯洛文尼亚语	Latin	印欧语系	波罗的 - 斯拉夫语族	中
smo	萨摩亚语	Latin	南岛语系	马来 - 波利尼西亚语族	低
sna	绍纳语	Latin	印欧语系	印度 - 雅利安语族	低
snd	信德语	Arabic	印欧语系	印度 - 雅利安语族	低
som	索马里语	Latin	亚非语系	库希特语族	低
sot	南索托语	Latin	大西洋 - 刚果语系	贝努埃 - 刚果语族	低
spa	西班牙语	Latin	印欧语系	意大利语族	高
sqi	阿尔巴尼亚语	Latin	印欧语系	阿尔巴尼亚语族	低
srp	塞尔维亚语	Cyrillic	印欧语系	波罗的 - 斯拉夫语族	高
sun	巽他语	Latin	南岛语系	马来 - 波利尼西亚语族	低
swa	斯瓦希里语	Latin	大西洋 - 刚果语系	贝努埃 - 刚果语族	低
swe	瑞典语	Latin	印欧语系	日耳曼语族	高
tam	泰米尔语	Tamil	达罗毗荼语系	南达罗毗荼语族	中
tel	泰卢固语	Telugu	达罗毗荼语系	南达罗毗荼语族	低
tgk	塔吉克语	Cyrillic	印欧语系	伊朗语族	低
tha	泰语	Thai	壮侗语系	侗台语族	中
tur	土耳其语	Latin	突厥语族	共同突厥语支	高
twi	契维语	Latin	大西洋 - 刚果语系	尼日尔 - 刚果语族	低
ukr	乌克兰语	Cyrillic	印欧语系	波罗的 - 斯拉夫语族	中
urd	乌尔都语	Arabic	印欧语系	印度 - 雅利安语族	中
uzb	乌兹别克语	Latin	突厥语族	共同突厥语支	中
vie	越南语	Latin	南亚语系	越语族	高
xho	科萨语	Latin	大西洋 - 刚果语系	贝努埃 - 刚果语族	低
yid	意第绪语	Hebrew	印欧语系	日耳曼语族	低
yor	约鲁巴语	Latin	大西洋 - 刚果语系	贝努埃 - 刚果语族	低
zho	中文	Han	汉藏语系	汉语族	高
zul	祖鲁语	Latin	大西洋 - 刚果语系	贝努埃 - 刚果语族	低

📄 许可证

本模型以Apache - 2.0许可证发布。

📖 引用

@article{üstün2024aya,
  title={Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model},
  author={Ahmet Üstün and Viraat Aryabumi and Zheng-Xin Yong and Wei-Yin Ko and Daniel D'souza and Gbemileke Onilude and Neel Bhandari and Shivalika Singh and Hui-Lee Ooi and Amr Kayid and Freddie Vargus and Phil Blunsom and Shayne Longpre and Niklas Muennighoff and Marzieh Fadaee and Julia Kreutzer and Sara Hooker},
  journal={arXiv preprint arXiv:2402.07827},
  year={2024}
}