Aya 101開源多語言生成式語言模型 - 支持101種語言指令，表現超同類

首頁

Aya 101

由CohereLabs開發

Aya 101 是一個支持101種語言指令的大規模多語言生成式語言模型，在各類評估中優於同類模型。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #多語言指令微調 #101種語言支持 #開源大模型

下載量 3,468

發布時間 : 2/8/2024

模型概述

Aya 101 是一個基於Transformer架構的自迴歸式超大規模多語言模型，支持101種語言的指令理解和生成任務。

模型特點

超多語言支持

支持101種語言的指令理解和生成任務，覆蓋資源豐富和資源匱乏的語言。

性能優越

在各類自動評估和人工評估中均優於同類模型如mT0和BLOOMZ。

開源許可

以Apache-2.0許可證發佈，促進多語言技術的發展和共享。

大規模訓練數據

訓練數據包括xP3x、Aya數據集、Aya語料庫等多個高質量多語言數據集。

模型能力

多語言文本生成

跨語言翻譯

多語言問答

指令理解與執行

多語言對話

使用案例

語言翻譯

土耳其語到英語翻譯

將土耳其語文本翻譯為英語

Aya is a multi-lingual language model

問答系統

印地語問答

回答印地語提出的問題

भारत में कई भाषाएँ हैं और विभिन्न भाषाओं के बोली जाने वाले लोग हैं। यह विभिन्नता भाषाई विविधता और सांस्कृतिक विविधता का परिणाम है

多語言應用

多語言對話系統

構建支持多種語言的對話系統

🚀 Aya 101模型介紹

Aya模型是一款強大的多語言生成式語言模型，能夠處理101種語言的指令。儘管支持的語言數量是其他模型的兩倍，但在各種自動和人工評估中，Aya的表現均優於mT0和BLOOMZ。該模型使用xP3x、Aya數據集、Aya集合、DataProvenance集合的一個子集以及ShareGPT-Command進行訓練。我們以Apache-2.0許可證發佈該模型的檢查點，以推動多語言技術賦能多語言世界的使命。

Aya模型總結圖

🚀 快速開始

安裝依賴

# pip install -q transformers
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

checkpoint = "CohereLabs/aya-101"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
aya_model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)

示例代碼

土耳其語到英語翻譯

# Turkish to English translation
tur_inputs = tokenizer.encode("Translate to English: Aya cok dilli bir dil modelidir.", return_tensors="pt")
tur_outputs = aya_model.generate(tur_inputs, max_new_tokens=128)
print(tokenizer.decode(tur_outputs[0]))
# Aya is a multi-lingual language model

印地語問答

# Q: Why are there so many languages in India?
hin_inputs = tokenizer.encode("भारत में इतनी सारी भाषाएँ क्यों हैं?", return_tensors="pt")
hin_outputs = aya_model.generate(hin_inputs, max_new_tokens=128)
print(tokenizer.decode(hin_outputs[0]))
# Expected output: भारत में कई भाषाएँ हैं और विभिन्न भाषाओं के बोली जाने वाले लोग हैं। यह विभिन्नता भाषाई विविधता और सांस्कृतिक विविधता का परिणाम है। Translates to "India has many languages and people speaking different languages. This diversity is the result of linguistic diversity and cultural diversity."

✨ 主要特性

多語言支持：支持101種語言，包括但不限於英語、中文、阿拉伯語、日語等。
高性能表現：在多種自動和人工評估中，優於mT0和BLOOMZ。
開放訪問：以Apache-2.0許可證發佈檢查點，方便社區使用和研究。

📦 安裝指南

安裝依賴：

pip install -q transformers

📚 詳細文檔

模型詳情

微調信息

架構：與mt5-xxl相同。
微調時看到的樣本數量：2500萬。
批次大小：256。
硬件：TPUv4 - 128。
軟件：T5X, Jax。

數據源

Aya模型在以下數據集上進行訓練：

所有數據集都被子集化為mT5支持的101種語言。有關過濾和修剪的詳細信息，請參閱論文。

評估

我們參考論文第5節進行了99種語言的多語言評估，包括判別和生成任務、人工評估以及涵蓋保留任務和分佈內性能的模擬勝率。

偏差、風險和侷限性

有關我們在安全緩解方面的努力以及跨多種語言的毒性和偏差基準測試的詳細概述，請參考論文的第6和7節：Aya模型：指令微調的開放訪問多語言語言模型。

我們希望Aya模型的發佈能夠通過向社區研究開放一個開源的大規模多語言模型，使基於社區的紅隊測試成為可能。

🔧 技術細節

語言覆蓋

點擊查看覆蓋的語言

以下是用於微調Aya模型的語言列表。我們根據Joshi等人，2020的語言分類，將語言分為高、中、低資源語言。有關更多詳細信息，請參閱我們的論文。

ISO代碼	語言名稱	書寫系統	語系	子分組	資源豐富度
afr	南非荷蘭語	Latin	印歐語系	日耳曼語族	中
amh	阿姆哈拉語	Ge'ez	亞非語系	閃米特語族	低
ara	阿拉伯語	Arabic	亞非語系	閃米特語族	高
aze	阿塞拜疆語	Arabic/Latin	突厥語族	共同突厥語支	低
bel	白俄羅斯語	Cyrillic	印歐語系	波羅的 - 斯拉夫語族	中
ben	孟加拉語	Bengali	印歐語系	印度 - 雅利安語族	中
bul	保加利亞語	Cyrillic	印歐語系	波羅的 - 斯拉夫語族	中
cat	加泰羅尼亞語	Latin	印歐語系	意大利語族	高
ceb	宿務語	Latin	南島語系	馬來 - 波利尼西亞語族	中
ces	捷克語	Latin	印歐語系	波羅的 - 斯拉夫語族	高
cym	威爾士語	Latin	印歐語系	凱爾特語族	低
dan	丹麥語	Latin	印歐語系	日耳曼語族	中
deu	德語	Latin	印歐語系	日耳曼語族	高
ell	希臘語	Greek	印歐語系	希臘 - 弗裡吉亞語族	中
eng	英語	Latin	印歐語系	日耳曼語族	高
epo	世界語	Latin	人造語言	世界語族	低
est	愛沙尼亞語	Latin	烏拉爾語系	芬蘭語族	中
eus	巴斯克語	Latin	巴斯克語族	-	高
fin	芬蘭語	Latin	烏拉爾語系	芬蘭語族	高
fil	他加祿語	Latin	南島語系	馬來 - 波利尼西亞語族	中
fra	法語	Latin	印歐語系	意大利語族	高
fry	西弗裡西亞語	Latin	印歐語系	日耳曼語族	低
gla	蘇格蘭蓋爾語	Latin	印歐語系	凱爾特語族	低
gle	愛爾蘭語	Latin	印歐語系	凱爾特語族	低
glg	加利西亞語	Latin	印歐語系	意大利語族	中
guj	古吉拉特語	Gujarati	印歐語系	印度 - 雅利安語族	低
hat	海地克里奧爾語	Latin	印歐語系	意大利語族	低
hau	豪薩語	Latin	亞非語系	乍得語族	低
heb	希伯來語	Hebrew	亞非語系	閃米特語族	中
hin	印地語	Devanagari	印歐語系	印度 - 雅利安語族	高
hun	匈牙利語	Latin	烏拉爾語系	-	高
hye	亞美尼亞語	Armenian	印歐語系	亞美尼亞語族	低
ibo	伊博語	Latin	大西洋 - 剛果語系	貝努埃 - 剛果語族	低
ind	印尼語	Latin	南島語系	馬來 - 波利尼西亞語族	中
isl	冰島語	Latin	印歐語系	日耳曼語族	低
ita	意大利語	Latin	印歐語系	意大利語族	高
jav	爪哇語	Latin	南島語系	馬來 - 波利尼西亞語族	低
jpn	日語	Japanese	日本語系	日本語族	高
kan	卡納達語	Kannada	達羅毗荼語系	南達羅毗荼語族	低
kat	格魯吉亞語	Georgian	卡爾特維語系	格魯吉亞 - 讚語支	中
kaz	哈薩克語	Cyrillic	突厥語族	共同突厥語支	中
khm	高棉語	Khmer	南亞語系	高棉語族	低
kir	吉爾吉斯語	Cyrillic	突厥語族	共同突厥語支	低
kor	韓語	Hangul	朝鮮語系	朝鮮語族	高
kur	庫爾德語	Latin	印歐語系	伊朗語族	低
lao	老撾語	Lao	壯侗語系	侗臺語族	低
lav	拉脫維亞語	Latin	印歐語系	波羅的 - 斯拉夫語族	中
lat	拉丁語	Latin	印歐語系	意大利語族	中
lit	立陶宛語	Latin	印歐語系	波羅的 - 斯拉夫語族	中
ltz	盧森堡語	Latin	印歐語系	日耳曼語族	低
mal	馬拉雅拉姆語	Malayalam	達羅毗荼語系	南達羅毗荼語族	低
mar	馬拉地語	Devanagari	印歐語系	印度 - 雅利安語族	低
mkd	馬其頓語	Cyrillic	印歐語系	波羅的 - 斯拉夫語族	低
mlg	馬達加斯加語	Latin	南島語系	馬來 - 波利尼西亞語族	低
mlt	馬耳他語	Latin	亞非語系	閃米特語族	低
mon	蒙古語	Cyrillic	蒙古 - 契丹語系	蒙古語族	低
mri	毛利語	Latin	南島語系	馬來 - 波利尼西亞語族	低
msa	馬來語	Latin	南島語系	馬來 - 波利尼西亞語族	中
mya	緬甸語	Myanmar	漢藏語系	緬羌語支	低
nep	尼泊爾語	Devanagari	印歐語系	印度 - 雅利安語族	低
nld	荷蘭語	Latin	印歐語系	日耳曼語族	高
nor	挪威語	Latin	印歐語系	日耳曼語族	低
nso	北索托語	Latin	大西洋 - 剛果語系	貝努埃 - 剛果語族	低
nya	奇切瓦語	Latin	大西洋 - 剛果語系	貝努埃 - 剛果語族	低
ory	奧里亞語	Oriya	印歐語系	印度 - 雅利安語族	低
pan	旁遮普語	Gurmukhi	印歐語系	印度 - 雅利安語族	低
pes	波斯語	Arabic	印歐語系	伊朗語族	高
pol	波蘭語	Latin	印歐語系	波羅的 - 斯拉夫語族	高
por	葡萄牙語	Latin	印歐語系	意大利語族	高
pus	普什圖語	Arabic	印歐語系	伊朗語族	低
ron	羅馬尼亞語	Latin	印歐語系	意大利語族	中
rus	俄語	Cyrillic	印歐語系	波羅的 - 斯拉夫語族	高
sin	僧伽羅語	Sinhala	印歐語系	印度 - 雅利安語族	低
slk	斯洛伐克語	Latin	印歐語系	波羅的 - 斯拉夫語族	中
slv	斯洛文尼亞語	Latin	印歐語系	波羅的 - 斯拉夫語族	中
smo	薩摩亞語	Latin	南島語系	馬來 - 波利尼西亞語族	低
sna	紹納語	Latin	印歐語系	印度 - 雅利安語族	低
snd	信德語	Arabic	印歐語系	印度 - 雅利安語族	低
som	索馬里語	Latin	亞非語系	庫希特語族	低
sot	南索托語	Latin	大西洋 - 剛果語系	貝努埃 - 剛果語族	低
spa	西班牙語	Latin	印歐語系	意大利語族	高
sqi	阿爾巴尼亞語	Latin	印歐語系	阿爾巴尼亞語族	低
srp	塞爾維亞語	Cyrillic	印歐語系	波羅的 - 斯拉夫語族	高
sun	巽他語	Latin	南島語系	馬來 - 波利尼西亞語族	低
swa	斯瓦希里語	Latin	大西洋 - 剛果語系	貝努埃 - 剛果語族	低
swe	瑞典語	Latin	印歐語系	日耳曼語族	高
tam	泰米爾語	Tamil	達羅毗荼語系	南達羅毗荼語族	中
tel	泰盧固語	Telugu	達羅毗荼語系	南達羅毗荼語族	低
tgk	塔吉克語	Cyrillic	印歐語系	伊朗語族	低
tha	泰語	Thai	壯侗語系	侗臺語族	中
tur	土耳其語	Latin	突厥語族	共同突厥語支	高
twi	契維語	Latin	大西洋 - 剛果語系	尼日爾 - 剛果語族	低
ukr	烏克蘭語	Cyrillic	印歐語系	波羅的 - 斯拉夫語族	中
urd	烏爾都語	Arabic	印歐語系	印度 - 雅利安語族	中
uzb	烏茲別克語	Latin	突厥語族	共同突厥語支	中
vie	越南語	Latin	南亞語系	越語族	高
xho	科薩語	Latin	大西洋 - 剛果語系	貝努埃 - 剛果語族	低
yid	意第緒語	Hebrew	印歐語系	日耳曼語族	低
yor	約魯巴語	Latin	大西洋 - 剛果語系	貝努埃 - 剛果語族	低
zho	中文	Han	漢藏語系	漢語族	高
zul	祖魯語	Latin	大西洋 - 剛果語系	貝努埃 - 剛果語族	低

📄 許可證

本模型以Apache - 2.0許可證發佈。

📖 引用

@article{üstün2024aya,
  title={Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model},
  author={Ahmet Üstün and Viraat Aryabumi and Zheng-Xin Yong and Wei-Yin Ko and Daniel D'souza and Gbemileke Onilude and Neel Bhandari and Shivalika Singh and Hui-Lee Ooi and Amr Kayid and Freddie Vargus and Phil Blunsom and Shayne Longpre and Niklas Muennighoff and Marzieh Fadaee and Julia Kreutzer and Sara Hooker},
  journal={arXiv preprint arXiv:2402.07827},
  year={2024}
}