Aya 101
Aya 101 是一个支持101种语言指令的大规模多语言生成式语言模型,在各类评估中优于同类模型。
下载量 3,468
发布时间 : 2/8/2024
模型简介
Aya 101 是一个基于Transformer架构的自回归式超大规模多语言模型,支持101种语言的指令理解和生成任务。
模型特点
超多语言支持
支持101种语言的指令理解和生成任务,覆盖资源丰富和资源匮乏的语言。
性能优越
在各类自动评估和人工评估中均优于同类模型如mT0和BLOOMZ。
开源许可
以Apache-2.0许可证发布,促进多语言技术的发展和共享。
大规模训练数据
训练数据包括xP3x、Aya数据集、Aya语料库等多个高质量多语言数据集。
模型能力
多语言文本生成
跨语言翻译
多语言问答
指令理解与执行
多语言对话
使用案例
语言翻译
土耳其语到英语翻译
将土耳其语文本翻译为英语
Aya is a multi-lingual language model
问答系统
印地语问答
回答印地语提出的问题
भारत में कई भाषाएँ हैं और विभिन्न भाषाओं के बोली जाने वाले लोग हैं। यह विभिन्नता भाषाई विविधता और सांस्कृतिक विविधता का परिणाम है
多语言应用
多语言对话系统
构建支持多种语言的对话系统
🚀 Aya 101模型介绍
Aya模型是一款强大的多语言生成式语言模型,能够处理101种语言的指令。尽管支持的语言数量是其他模型的两倍,但在各种自动和人工评估中,Aya的表现均优于mT0和BLOOMZ。该模型使用xP3x、Aya数据集、Aya集合、DataProvenance集合的一个子集以及ShareGPT-Command进行训练。我们以Apache-2.0许可证发布该模型的检查点,以推动多语言技术赋能多语言世界的使命。
🚀 快速开始
安装依赖
# pip install -q transformers
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
checkpoint = "CohereLabs/aya-101"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
aya_model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
示例代码
土耳其语到英语翻译
# Turkish to English translation
tur_inputs = tokenizer.encode("Translate to English: Aya cok dilli bir dil modelidir.", return_tensors="pt")
tur_outputs = aya_model.generate(tur_inputs, max_new_tokens=128)
print(tokenizer.decode(tur_outputs[0]))
# Aya is a multi-lingual language model
印地语问答
# Q: Why are there so many languages in India?
hin_inputs = tokenizer.encode("भारत में इतनी सारी भाषाएँ क्यों हैं?", return_tensors="pt")
hin_outputs = aya_model.generate(hin_inputs, max_new_tokens=128)
print(tokenizer.decode(hin_outputs[0]))
# Expected output: भारत में कई भाषाएँ हैं और विभिन्न भाषाओं के बोली जाने वाले लोग हैं। यह विभिन्नता भाषाई विविधता और सांस्कृतिक विविधता का परिणाम है। Translates to "India has many languages and people speaking different languages. This diversity is the result of linguistic diversity and cultural diversity."
✨ 主要特性
- 多语言支持:支持101种语言,包括但不限于英语、中文、阿拉伯语、日语等。
- 高性能表现:在多种自动和人工评估中,优于mT0和BLOOMZ。
- 开放访问:以Apache-2.0许可证发布检查点,方便社区使用和研究。
📦 安装指南
安装依赖:
pip install -q transformers
📚 详细文档
模型详情
微调信息
- 架构:与mt5-xxl相同。
- 微调时看到的样本数量:2500万。
- 批次大小:256。
- 硬件:TPUv4 - 128。
- 软件:T5X, Jax。
数据源
Aya模型在以下数据集上进行训练:
- xP3x
- Aya数据集
- Aya集合
- DataProvenance集合
- ShareGPT - Command
所有数据集都被子集化为mT5支持的101种语言。有关过滤和修剪的详细信息,请参阅论文。
评估
我们参考论文第5节进行了99种语言的多语言评估,包括判别和生成任务、人工评估以及涵盖保留任务和分布内性能的模拟胜率。
偏差、风险和局限性
有关我们在安全缓解方面的努力以及跨多种语言的毒性和偏差基准测试的详细概述,请参考论文的第6和7节:Aya模型:指令微调的开放访问多语言语言模型。
我们希望Aya模型的发布能够通过向社区研究开放一个开源的大规模多语言模型,使基于社区的红队测试成为可能。
🔧 技术细节
语言覆盖
点击查看覆盖的语言
以下是用于微调Aya模型的语言列表。我们根据Joshi等人,2020的语言分类,将语言分为高、中、低资源语言。有关更多详细信息,请参阅我们的论文。
ISO代码 | 语言名称 | 书写系统 | 语系 | 子分组 | 资源丰富度 |
---|---|---|---|---|---|
afr | 南非荷兰语 | Latin | 印欧语系 | 日耳曼语族 | 中 |
amh | 阿姆哈拉语 | Ge'ez | 亚非语系 | 闪米特语族 | 低 |
ara | 阿拉伯语 | Arabic | 亚非语系 | 闪米特语族 | 高 |
aze | 阿塞拜疆语 | Arabic/Latin | 突厥语族 | 共同突厥语支 | 低 |
bel | 白俄罗斯语 | Cyrillic | 印欧语系 | 波罗的 - 斯拉夫语族 | 中 |
ben | 孟加拉语 | Bengali | 印欧语系 | 印度 - 雅利安语族 | 中 |
bul | 保加利亚语 | Cyrillic | 印欧语系 | 波罗的 - 斯拉夫语族 | 中 |
cat | 加泰罗尼亚语 | Latin | 印欧语系 | 意大利语族 | 高 |
ceb | 宿务语 | Latin | 南岛语系 | 马来 - 波利尼西亚语族 | 中 |
ces | 捷克语 | Latin | 印欧语系 | 波罗的 - 斯拉夫语族 | 高 |
cym | 威尔士语 | Latin | 印欧语系 | 凯尔特语族 | 低 |
dan | 丹麦语 | Latin | 印欧语系 | 日耳曼语族 | 中 |
deu | 德语 | Latin | 印欧语系 | 日耳曼语族 | 高 |
ell | 希腊语 | Greek | 印欧语系 | 希腊 - 弗里吉亚语族 | 中 |
eng | 英语 | Latin | 印欧语系 | 日耳曼语族 | 高 |
epo | 世界语 | Latin | 人造语言 | 世界语族 | 低 |
est | 爱沙尼亚语 | Latin | 乌拉尔语系 | 芬兰语族 | 中 |
eus | 巴斯克语 | Latin | 巴斯克语族 | - | 高 |
fin | 芬兰语 | Latin | 乌拉尔语系 | 芬兰语族 | 高 |
fil | 他加禄语 | Latin | 南岛语系 | 马来 - 波利尼西亚语族 | 中 |
fra | 法语 | Latin | 印欧语系 | 意大利语族 | 高 |
fry | 西弗里西亚语 | Latin | 印欧语系 | 日耳曼语族 | 低 |
gla | 苏格兰盖尔语 | Latin | 印欧语系 | 凯尔特语族 | 低 |
gle | 爱尔兰语 | Latin | 印欧语系 | 凯尔特语族 | 低 |
glg | 加利西亚语 | Latin | 印欧语系 | 意大利语族 | 中 |
guj | 古吉拉特语 | Gujarati | 印欧语系 | 印度 - 雅利安语族 | 低 |
hat | 海地克里奥尔语 | Latin | 印欧语系 | 意大利语族 | 低 |
hau | 豪萨语 | Latin | 亚非语系 | 乍得语族 | 低 |
heb | 希伯来语 | Hebrew | 亚非语系 | 闪米特语族 | 中 |
hin | 印地语 | Devanagari | 印欧语系 | 印度 - 雅利安语族 | 高 |
hun | 匈牙利语 | Latin | 乌拉尔语系 | - | 高 |
hye | 亚美尼亚语 | Armenian | 印欧语系 | 亚美尼亚语族 | 低 |
ibo | 伊博语 | Latin | 大西洋 - 刚果语系 | 贝努埃 - 刚果语族 | 低 |
ind | 印尼语 | Latin | 南岛语系 | 马来 - 波利尼西亚语族 | 中 |
isl | 冰岛语 | Latin | 印欧语系 | 日耳曼语族 | 低 |
ita | 意大利语 | Latin | 印欧语系 | 意大利语族 | 高 |
jav | 爪哇语 | Latin | 南岛语系 | 马来 - 波利尼西亚语族 | 低 |
jpn | 日语 | Japanese | 日本语系 | 日本语族 | 高 |
kan | 卡纳达语 | Kannada | 达罗毗荼语系 | 南达罗毗荼语族 | 低 |
kat | 格鲁吉亚语 | Georgian | 卡尔特维语系 | 格鲁吉亚 - 赞语支 | 中 |
kaz | 哈萨克语 | Cyrillic | 突厥语族 | 共同突厥语支 | 中 |
khm | 高棉语 | Khmer | 南亚语系 | 高棉语族 | 低 |
kir | 吉尔吉斯语 | Cyrillic | 突厥语族 | 共同突厥语支 | 低 |
kor | 韩语 | Hangul | 朝鲜语系 | 朝鲜语族 | 高 |
kur | 库尔德语 | Latin | 印欧语系 | 伊朗语族 | 低 |
lao | 老挝语 | Lao | 壮侗语系 | 侗台语族 | 低 |
lav | 拉脱维亚语 | Latin | 印欧语系 | 波罗的 - 斯拉夫语族 | 中 |
lat | 拉丁语 | Latin | 印欧语系 | 意大利语族 | 中 |
lit | 立陶宛语 | Latin | 印欧语系 | 波罗的 - 斯拉夫语族 | 中 |
ltz | 卢森堡语 | Latin | 印欧语系 | 日耳曼语族 | 低 |
mal | 马拉雅拉姆语 | Malayalam | 达罗毗荼语系 | 南达罗毗荼语族 | 低 |
mar | 马拉地语 | Devanagari | 印欧语系 | 印度 - 雅利安语族 | 低 |
mkd | 马其顿语 | Cyrillic | 印欧语系 | 波罗的 - 斯拉夫语族 | 低 |
mlg | 马达加斯加语 | Latin | 南岛语系 | 马来 - 波利尼西亚语族 | 低 |
mlt | 马耳他语 | Latin | 亚非语系 | 闪米特语族 | 低 |
mon | 蒙古语 | Cyrillic | 蒙古 - 契丹语系 | 蒙古语族 | 低 |
mri | 毛利语 | Latin | 南岛语系 | 马来 - 波利尼西亚语族 | 低 |
msa | 马来语 | Latin | 南岛语系 | 马来 - 波利尼西亚语族 | 中 |
mya | 缅甸语 | Myanmar | 汉藏语系 | 缅羌语支 | 低 |
nep | 尼泊尔语 | Devanagari | 印欧语系 | 印度 - 雅利安语族 | 低 |
nld | 荷兰语 | Latin | 印欧语系 | 日耳曼语族 | 高 |
nor | 挪威语 | Latin | 印欧语系 | 日耳曼语族 | 低 |
nso | 北索托语 | Latin | 大西洋 - 刚果语系 | 贝努埃 - 刚果语族 | 低 |
nya | 奇切瓦语 | Latin | 大西洋 - 刚果语系 | 贝努埃 - 刚果语族 | 低 |
ory | 奥里亚语 | Oriya | 印欧语系 | 印度 - 雅利安语族 | 低 |
pan | 旁遮普语 | Gurmukhi | 印欧语系 | 印度 - 雅利安语族 | 低 |
pes | 波斯语 | Arabic | 印欧语系 | 伊朗语族 | 高 |
pol | 波兰语 | Latin | 印欧语系 | 波罗的 - 斯拉夫语族 | 高 |
por | 葡萄牙语 | Latin | 印欧语系 | 意大利语族 | 高 |
pus | 普什图语 | Arabic | 印欧语系 | 伊朗语族 | 低 |
ron | 罗马尼亚语 | Latin | 印欧语系 | 意大利语族 | 中 |
rus | 俄语 | Cyrillic | 印欧语系 | 波罗的 - 斯拉夫语族 | 高 |
sin | 僧伽罗语 | Sinhala | 印欧语系 | 印度 - 雅利安语族 | 低 |
slk | 斯洛伐克语 | Latin | 印欧语系 | 波罗的 - 斯拉夫语族 | 中 |
slv | 斯洛文尼亚语 | Latin | 印欧语系 | 波罗的 - 斯拉夫语族 | 中 |
smo | 萨摩亚语 | Latin | 南岛语系 | 马来 - 波利尼西亚语族 | 低 |
sna | 绍纳语 | Latin | 印欧语系 | 印度 - 雅利安语族 | 低 |
snd | 信德语 | Arabic | 印欧语系 | 印度 - 雅利安语族 | 低 |
som | 索马里语 | Latin | 亚非语系 | 库希特语族 | 低 |
sot | 南索托语 | Latin | 大西洋 - 刚果语系 | 贝努埃 - 刚果语族 | 低 |
spa | 西班牙语 | Latin | 印欧语系 | 意大利语族 | 高 |
sqi | 阿尔巴尼亚语 | Latin | 印欧语系 | 阿尔巴尼亚语族 | 低 |
srp | 塞尔维亚语 | Cyrillic | 印欧语系 | 波罗的 - 斯拉夫语族 | 高 |
sun | 巽他语 | Latin | 南岛语系 | 马来 - 波利尼西亚语族 | 低 |
swa | 斯瓦希里语 | Latin | 大西洋 - 刚果语系 | 贝努埃 - 刚果语族 | 低 |
swe | 瑞典语 | Latin | 印欧语系 | 日耳曼语族 | 高 |
tam | 泰米尔语 | Tamil | 达罗毗荼语系 | 南达罗毗荼语族 | 中 |
tel | 泰卢固语 | Telugu | 达罗毗荼语系 | 南达罗毗荼语族 | 低 |
tgk | 塔吉克语 | Cyrillic | 印欧语系 | 伊朗语族 | 低 |
tha | 泰语 | Thai | 壮侗语系 | 侗台语族 | 中 |
tur | 土耳其语 | Latin | 突厥语族 | 共同突厥语支 | 高 |
twi | 契维语 | Latin | 大西洋 - 刚果语系 | 尼日尔 - 刚果语族 | 低 |
ukr | 乌克兰语 | Cyrillic | 印欧语系 | 波罗的 - 斯拉夫语族 | 中 |
urd | 乌尔都语 | Arabic | 印欧语系 | 印度 - 雅利安语族 | 中 |
uzb | 乌兹别克语 | Latin | 突厥语族 | 共同突厥语支 | 中 |
vie | 越南语 | Latin | 南亚语系 | 越语族 | 高 |
xho | 科萨语 | Latin | 大西洋 - 刚果语系 | 贝努埃 - 刚果语族 | 低 |
yid | 意第绪语 | Hebrew | 印欧语系 | 日耳曼语族 | 低 |
yor | 约鲁巴语 | Latin | 大西洋 - 刚果语系 | 贝努埃 - 刚果语族 | 低 |
zho | 中文 | Han | 汉藏语系 | 汉语族 | 高 |
zul | 祖鲁语 | Latin | 大西洋 - 刚果语系 | 贝努埃 - 刚果语族 | 低 |
📄 许可证
本模型以Apache - 2.0许可证发布。
📖 引用
@article{üstün2024aya,
title={Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model},
author={Ahmet Üstün and Viraat Aryabumi and Zheng-Xin Yong and Wei-Yin Ko and Daniel D'souza and Gbemileke Onilude and Neel Bhandari and Shivalika Singh and Hui-Lee Ooi and Amr Kayid and Freddie Vargus and Phil Blunsom and Shayne Longpre and Niklas Muennighoff and Marzieh Fadaee and Julia Kreutzer and Sara Hooker},
journal={arXiv preprint arXiv:2402.07827},
year={2024}
}
📞 模型卡片联系信息
如果本模型卡片存在错误,请联系Ahmet或Viraat,邮箱:{ahmet, viraat} at cohere dot com
。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98