🚀 Aya-Expanse-32B模型介紹
Aya Expanse 32B 是一款具有高度先進多語言能力的模型的開放權重研究版本。它將高性能的預訓練 Command系列 模型與 Cohere Labs 一年的專項研究成果相結合,這些研究包括 數據套利、多語言偏好訓練、安全調優 和 模型融合。最終得到的是一個支持23種語言的強大多語言大語言模型。
此模型卡片對應Aya Expanse模型的320億參數版本。我們還發布了80億參數版本,你可以 在此 找到。
🚀 快速開始
試用Aya Expanse
你可以使用 Cohere playground 或我們的 Hugging Face Space 進行交互式探索。
如何使用Aya Expanse
安裝transformers庫並按如下方式加載Aya Expanse 32B:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-expanse-32b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
示例筆記本
- 微調:詳細微調筆記本。
- 社區貢獻用例:以下由 Cohere Labs社區 成員貢獻的筆記本展示了Aya Expanse在不同用例中的應用:
✨ 主要特性
- 多語言支持:該模型特別針對多語言進行了優化,支持23種語言,包括阿拉伯語、中文(簡體和繁體)、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。
- 高性能架構:Aya Expanse 32B是一個自迴歸語言模型,採用了優化的Transformer架構。訓練後處理包括監督微調、偏好訓練和模型融合。
- 長上下文處理:上下文長度可達128K。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
輸入 |
模型僅接受文本輸入。 |
輸出 |
模型僅生成文本。 |
模型架構 |
Aya Expanse 32B是一個自迴歸語言模型,採用優化的Transformer架構。訓練後包括監督微調、偏好訓練和模型融合。 |
支持語言 |
阿拉伯語、中文(簡體和繁體)、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語 |
上下文長度 |
128K |
評估
我們使用 Aya評估套件數據集 中的 dolly_human_edited
子集和基於 Arena-Hard-Auto數據集 並翻譯成Aya Expanse支持的23種語言的m-ArenaHard數據集,將Aya Expanse 32B與Gemma 2 27B、Llama 3.1 70B、Mixtral 8x22B和Qwen 2.5 35B進行了對比評估。勝率使用gpt - 4o - 2024 - 08 - 06作為評判標準。為了進行保守基準測試,我們報告了gpt - 4o - 2024 - 08 - 06的結果,不過gpt - 4o - mini的得分顯示出更強的性能。
用於評估Aya Expanse能力的m-ArenaHard數據集 在此 公開可用。
WhatsApp集成
你還可以通過流行的消息服務WhatsApp與Aya Expanse進行對話。使用此 鏈接 打開與Aya Expanse的WhatsApp聊天框。如果你沒有在設備上下載WhatsApp,可能需要先下載;或者如果你在手機上安裝了它,可以按照屏幕上的說明將手機與WhatsApp Web進行關聯。最後,你將看到一個文本窗口,可用於與模型聊天。有關我們的WhatsApp集成的更多詳細信息 在此 提供。
📄 許可證
本模型受 CC-BY-NC 許可證約束,同時還需遵守 Cohere Lab的可接受使用政策。
模型卡片聯繫方式
如果你發現此模型卡片中的錯誤或有其他問題,請聯繫labs@cohere.com。
引用
你可以使用以下方式引用Aya Expanse:
@misc{dang2024ayaexpansecombiningresearch,
title={Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier},
author={John Dang and Shivalika Singh and Daniel D'souza and Arash Ahmadian and Alejandro Salamanca and Madeline Smith and Aidan Peppin and Sungjin Hong and Manoj Govindassamy and Terrence Zhao and Sandra Kublik and Meor Amer and Viraat Aryabumi and Jon Ander Campos and Yi-Chern Tan and Tom Kocmi and Florian Strub and Nathan Grinsztajn and Yannis Flet-Berliac and Acyr Locatelli and Hangyu Lin and Dwarak Talupuru and Bharat Venkitesh and David Cairuz and Bowen Yang and Tim Chung and Wei-Yin Ko and Sylvie Shang Shi and Amir Shukayev and Sammie Bae and Aleksandra Piktus and Roman Castagné and Felipe Cruz-Salinas and Eddie Kim and Lucas Crawhall-Stein and Adrien Morisot and Sudip Roy and Phil Blunsom and Ivan Zhang and Aidan Gomez and Nick Frosst and Marzieh Fadaee and Beyza Ermis and Ahmet Üstün and Sara Hooker},
year={2024},
eprint={2412.04261},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.04261},
}