Aya 101
Aya 101 是一個支持101種語言指令的大規模多語言生成式語言模型,在各類評估中優於同類模型。
下載量 3,468
發布時間 : 2/8/2024
模型概述
Aya 101 是一個基於Transformer架構的自迴歸式超大規模多語言模型,支持101種語言的指令理解和生成任務。
模型特點
超多語言支持
支持101種語言的指令理解和生成任務,覆蓋資源豐富和資源匱乏的語言。
性能優越
在各類自動評估和人工評估中均優於同類模型如mT0和BLOOMZ。
開源許可
以Apache-2.0許可證發佈,促進多語言技術的發展和共享。
大規模訓練數據
訓練數據包括xP3x、Aya數據集、Aya語料庫等多個高質量多語言數據集。
模型能力
多語言文本生成
跨語言翻譯
多語言問答
指令理解與執行
多語言對話
使用案例
語言翻譯
土耳其語到英語翻譯
將土耳其語文本翻譯為英語
Aya is a multi-lingual language model
問答系統
印地語問答
回答印地語提出的問題
भारत में कई भाषाएँ हैं और विभिन्न भाषाओं के बोली जाने वाले लोग हैं। यह विभिन्नता भाषाई विविधता और सांस्कृतिक विविधता का परिणाम है
多語言應用
多語言對話系統
構建支持多種語言的對話系統
🚀 Aya 101模型介紹
Aya模型是一款強大的多語言生成式語言模型,能夠處理101種語言的指令。儘管支持的語言數量是其他模型的兩倍,但在各種自動和人工評估中,Aya的表現均優於mT0和BLOOMZ。該模型使用xP3x、Aya數據集、Aya集合、DataProvenance集合的一個子集以及ShareGPT-Command進行訓練。我們以Apache-2.0許可證發佈該模型的檢查點,以推動多語言技術賦能多語言世界的使命。
🚀 快速開始
安裝依賴
# pip install -q transformers
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
checkpoint = "CohereLabs/aya-101"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
aya_model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
示例代碼
土耳其語到英語翻譯
# Turkish to English translation
tur_inputs = tokenizer.encode("Translate to English: Aya cok dilli bir dil modelidir.", return_tensors="pt")
tur_outputs = aya_model.generate(tur_inputs, max_new_tokens=128)
print(tokenizer.decode(tur_outputs[0]))
# Aya is a multi-lingual language model
印地語問答
# Q: Why are there so many languages in India?
hin_inputs = tokenizer.encode("भारत में इतनी सारी भाषाएँ क्यों हैं?", return_tensors="pt")
hin_outputs = aya_model.generate(hin_inputs, max_new_tokens=128)
print(tokenizer.decode(hin_outputs[0]))
# Expected output: भारत में कई भाषाएँ हैं और विभिन्न भाषाओं के बोली जाने वाले लोग हैं। यह विभिन्नता भाषाई विविधता और सांस्कृतिक विविधता का परिणाम है। Translates to "India has many languages and people speaking different languages. This diversity is the result of linguistic diversity and cultural diversity."
✨ 主要特性
- 多語言支持:支持101種語言,包括但不限於英語、中文、阿拉伯語、日語等。
- 高性能表現:在多種自動和人工評估中,優於mT0和BLOOMZ。
- 開放訪問:以Apache-2.0許可證發佈檢查點,方便社區使用和研究。
📦 安裝指南
安裝依賴:
pip install -q transformers
📚 詳細文檔
模型詳情
微調信息
- 架構:與mt5-xxl相同。
- 微調時看到的樣本數量:2500萬。
- 批次大小:256。
- 硬件:TPUv4 - 128。
- 軟件:T5X, Jax。
數據源
Aya模型在以下數據集上進行訓練:
- xP3x
- Aya數據集
- Aya集合
- DataProvenance集合
- ShareGPT - Command
所有數據集都被子集化為mT5支持的101種語言。有關過濾和修剪的詳細信息,請參閱論文。
評估
我們參考論文第5節進行了99種語言的多語言評估,包括判別和生成任務、人工評估以及涵蓋保留任務和分佈內性能的模擬勝率。
偏差、風險和侷限性
有關我們在安全緩解方面的努力以及跨多種語言的毒性和偏差基準測試的詳細概述,請參考論文的第6和7節:Aya模型:指令微調的開放訪問多語言語言模型。
我們希望Aya模型的發佈能夠通過向社區研究開放一個開源的大規模多語言模型,使基於社區的紅隊測試成為可能。
🔧 技術細節
語言覆蓋
點擊查看覆蓋的語言
以下是用於微調Aya模型的語言列表。我們根據Joshi等人,2020的語言分類,將語言分為高、中、低資源語言。有關更多詳細信息,請參閱我們的論文。
ISO代碼 | 語言名稱 | 書寫系統 | 語系 | 子分組 | 資源豐富度 |
---|---|---|---|---|---|
afr | 南非荷蘭語 | Latin | 印歐語系 | 日耳曼語族 | 中 |
amh | 阿姆哈拉語 | Ge'ez | 亞非語系 | 閃米特語族 | 低 |
ara | 阿拉伯語 | Arabic | 亞非語系 | 閃米特語族 | 高 |
aze | 阿塞拜疆語 | Arabic/Latin | 突厥語族 | 共同突厥語支 | 低 |
bel | 白俄羅斯語 | Cyrillic | 印歐語系 | 波羅的 - 斯拉夫語族 | 中 |
ben | 孟加拉語 | Bengali | 印歐語系 | 印度 - 雅利安語族 | 中 |
bul | 保加利亞語 | Cyrillic | 印歐語系 | 波羅的 - 斯拉夫語族 | 中 |
cat | 加泰羅尼亞語 | Latin | 印歐語系 | 意大利語族 | 高 |
ceb | 宿務語 | Latin | 南島語系 | 馬來 - 波利尼西亞語族 | 中 |
ces | 捷克語 | Latin | 印歐語系 | 波羅的 - 斯拉夫語族 | 高 |
cym | 威爾士語 | Latin | 印歐語系 | 凱爾特語族 | 低 |
dan | 丹麥語 | Latin | 印歐語系 | 日耳曼語族 | 中 |
deu | 德語 | Latin | 印歐語系 | 日耳曼語族 | 高 |
ell | 希臘語 | Greek | 印歐語系 | 希臘 - 弗裡吉亞語族 | 中 |
eng | 英語 | Latin | 印歐語系 | 日耳曼語族 | 高 |
epo | 世界語 | Latin | 人造語言 | 世界語族 | 低 |
est | 愛沙尼亞語 | Latin | 烏拉爾語系 | 芬蘭語族 | 中 |
eus | 巴斯克語 | Latin | 巴斯克語族 | - | 高 |
fin | 芬蘭語 | Latin | 烏拉爾語系 | 芬蘭語族 | 高 |
fil | 他加祿語 | Latin | 南島語系 | 馬來 - 波利尼西亞語族 | 中 |
fra | 法語 | Latin | 印歐語系 | 意大利語族 | 高 |
fry | 西弗裡西亞語 | Latin | 印歐語系 | 日耳曼語族 | 低 |
gla | 蘇格蘭蓋爾語 | Latin | 印歐語系 | 凱爾特語族 | 低 |
gle | 愛爾蘭語 | Latin | 印歐語系 | 凱爾特語族 | 低 |
glg | 加利西亞語 | Latin | 印歐語系 | 意大利語族 | 中 |
guj | 古吉拉特語 | Gujarati | 印歐語系 | 印度 - 雅利安語族 | 低 |
hat | 海地克里奧爾語 | Latin | 印歐語系 | 意大利語族 | 低 |
hau | 豪薩語 | Latin | 亞非語系 | 乍得語族 | 低 |
heb | 希伯來語 | Hebrew | 亞非語系 | 閃米特語族 | 中 |
hin | 印地語 | Devanagari | 印歐語系 | 印度 - 雅利安語族 | 高 |
hun | 匈牙利語 | Latin | 烏拉爾語系 | - | 高 |
hye | 亞美尼亞語 | Armenian | 印歐語系 | 亞美尼亞語族 | 低 |
ibo | 伊博語 | Latin | 大西洋 - 剛果語系 | 貝努埃 - 剛果語族 | 低 |
ind | 印尼語 | Latin | 南島語系 | 馬來 - 波利尼西亞語族 | 中 |
isl | 冰島語 | Latin | 印歐語系 | 日耳曼語族 | 低 |
ita | 意大利語 | Latin | 印歐語系 | 意大利語族 | 高 |
jav | 爪哇語 | Latin | 南島語系 | 馬來 - 波利尼西亞語族 | 低 |
jpn | 日語 | Japanese | 日本語系 | 日本語族 | 高 |
kan | 卡納達語 | Kannada | 達羅毗荼語系 | 南達羅毗荼語族 | 低 |
kat | 格魯吉亞語 | Georgian | 卡爾特維語系 | 格魯吉亞 - 讚語支 | 中 |
kaz | 哈薩克語 | Cyrillic | 突厥語族 | 共同突厥語支 | 中 |
khm | 高棉語 | Khmer | 南亞語系 | 高棉語族 | 低 |
kir | 吉爾吉斯語 | Cyrillic | 突厥語族 | 共同突厥語支 | 低 |
kor | 韓語 | Hangul | 朝鮮語系 | 朝鮮語族 | 高 |
kur | 庫爾德語 | Latin | 印歐語系 | 伊朗語族 | 低 |
lao | 老撾語 | Lao | 壯侗語系 | 侗臺語族 | 低 |
lav | 拉脫維亞語 | Latin | 印歐語系 | 波羅的 - 斯拉夫語族 | 中 |
lat | 拉丁語 | Latin | 印歐語系 | 意大利語族 | 中 |
lit | 立陶宛語 | Latin | 印歐語系 | 波羅的 - 斯拉夫語族 | 中 |
ltz | 盧森堡語 | Latin | 印歐語系 | 日耳曼語族 | 低 |
mal | 馬拉雅拉姆語 | Malayalam | 達羅毗荼語系 | 南達羅毗荼語族 | 低 |
mar | 馬拉地語 | Devanagari | 印歐語系 | 印度 - 雅利安語族 | 低 |
mkd | 馬其頓語 | Cyrillic | 印歐語系 | 波羅的 - 斯拉夫語族 | 低 |
mlg | 馬達加斯加語 | Latin | 南島語系 | 馬來 - 波利尼西亞語族 | 低 |
mlt | 馬耳他語 | Latin | 亞非語系 | 閃米特語族 | 低 |
mon | 蒙古語 | Cyrillic | 蒙古 - 契丹語系 | 蒙古語族 | 低 |
mri | 毛利語 | Latin | 南島語系 | 馬來 - 波利尼西亞語族 | 低 |
msa | 馬來語 | Latin | 南島語系 | 馬來 - 波利尼西亞語族 | 中 |
mya | 緬甸語 | Myanmar | 漢藏語系 | 緬羌語支 | 低 |
nep | 尼泊爾語 | Devanagari | 印歐語系 | 印度 - 雅利安語族 | 低 |
nld | 荷蘭語 | Latin | 印歐語系 | 日耳曼語族 | 高 |
nor | 挪威語 | Latin | 印歐語系 | 日耳曼語族 | 低 |
nso | 北索托語 | Latin | 大西洋 - 剛果語系 | 貝努埃 - 剛果語族 | 低 |
nya | 奇切瓦語 | Latin | 大西洋 - 剛果語系 | 貝努埃 - 剛果語族 | 低 |
ory | 奧里亞語 | Oriya | 印歐語系 | 印度 - 雅利安語族 | 低 |
pan | 旁遮普語 | Gurmukhi | 印歐語系 | 印度 - 雅利安語族 | 低 |
pes | 波斯語 | Arabic | 印歐語系 | 伊朗語族 | 高 |
pol | 波蘭語 | Latin | 印歐語系 | 波羅的 - 斯拉夫語族 | 高 |
por | 葡萄牙語 | Latin | 印歐語系 | 意大利語族 | 高 |
pus | 普什圖語 | Arabic | 印歐語系 | 伊朗語族 | 低 |
ron | 羅馬尼亞語 | Latin | 印歐語系 | 意大利語族 | 中 |
rus | 俄語 | Cyrillic | 印歐語系 | 波羅的 - 斯拉夫語族 | 高 |
sin | 僧伽羅語 | Sinhala | 印歐語系 | 印度 - 雅利安語族 | 低 |
slk | 斯洛伐克語 | Latin | 印歐語系 | 波羅的 - 斯拉夫語族 | 中 |
slv | 斯洛文尼亞語 | Latin | 印歐語系 | 波羅的 - 斯拉夫語族 | 中 |
smo | 薩摩亞語 | Latin | 南島語系 | 馬來 - 波利尼西亞語族 | 低 |
sna | 紹納語 | Latin | 印歐語系 | 印度 - 雅利安語族 | 低 |
snd | 信德語 | Arabic | 印歐語系 | 印度 - 雅利安語族 | 低 |
som | 索馬里語 | Latin | 亞非語系 | 庫希特語族 | 低 |
sot | 南索托語 | Latin | 大西洋 - 剛果語系 | 貝努埃 - 剛果語族 | 低 |
spa | 西班牙語 | Latin | 印歐語系 | 意大利語族 | 高 |
sqi | 阿爾巴尼亞語 | Latin | 印歐語系 | 阿爾巴尼亞語族 | 低 |
srp | 塞爾維亞語 | Cyrillic | 印歐語系 | 波羅的 - 斯拉夫語族 | 高 |
sun | 巽他語 | Latin | 南島語系 | 馬來 - 波利尼西亞語族 | 低 |
swa | 斯瓦希里語 | Latin | 大西洋 - 剛果語系 | 貝努埃 - 剛果語族 | 低 |
swe | 瑞典語 | Latin | 印歐語系 | 日耳曼語族 | 高 |
tam | 泰米爾語 | Tamil | 達羅毗荼語系 | 南達羅毗荼語族 | 中 |
tel | 泰盧固語 | Telugu | 達羅毗荼語系 | 南達羅毗荼語族 | 低 |
tgk | 塔吉克語 | Cyrillic | 印歐語系 | 伊朗語族 | 低 |
tha | 泰語 | Thai | 壯侗語系 | 侗臺語族 | 中 |
tur | 土耳其語 | Latin | 突厥語族 | 共同突厥語支 | 高 |
twi | 契維語 | Latin | 大西洋 - 剛果語系 | 尼日爾 - 剛果語族 | 低 |
ukr | 烏克蘭語 | Cyrillic | 印歐語系 | 波羅的 - 斯拉夫語族 | 中 |
urd | 烏爾都語 | Arabic | 印歐語系 | 印度 - 雅利安語族 | 中 |
uzb | 烏茲別克語 | Latin | 突厥語族 | 共同突厥語支 | 中 |
vie | 越南語 | Latin | 南亞語系 | 越語族 | 高 |
xho | 科薩語 | Latin | 大西洋 - 剛果語系 | 貝努埃 - 剛果語族 | 低 |
yid | 意第緒語 | Hebrew | 印歐語系 | 日耳曼語族 | 低 |
yor | 約魯巴語 | Latin | 大西洋 - 剛果語系 | 貝努埃 - 剛果語族 | 低 |
zho | 中文 | Han | 漢藏語系 | 漢語族 | 高 |
zul | 祖魯語 | Latin | 大西洋 - 剛果語系 | 貝努埃 - 剛果語族 | 低 |
📄 許可證
本模型以Apache - 2.0許可證發佈。
📖 引用
@article{üstün2024aya,
title={Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model},
author={Ahmet Üstün and Viraat Aryabumi and Zheng-Xin Yong and Wei-Yin Ko and Daniel D'souza and Gbemileke Onilude and Neel Bhandari and Shivalika Singh and Hui-Lee Ooi and Amr Kayid and Freddie Vargus and Phil Blunsom and Shayne Longpre and Niklas Muennighoff and Marzieh Fadaee and Julia Kreutzer and Sara Hooker},
journal={arXiv preprint arXiv:2402.07827},
year={2024}
}
📞 模型卡片聯繫信息
如果本模型卡片存在錯誤,請聯繫Ahmet或Viraat,郵箱:{ahmet, viraat} at cohere dot com
。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98