Aya Expanse 32B開源多語言大模型 - 支持23種語言溝通交流！

首頁

Aya Expanse 32b

由CohereLabs開發

Aya Expanse 32B是一個開放權重的多語言大語言模型，支持23種語言，結合了高性能預訓練與多語言偏好訓練等技術。

大型語言模型

Transformers

支持多種語言#23種語言支持 #128K長上下文 #多語言寫作助手

下載量 9,666

發布時間 : 10/23/2024

模型概述

Aya Expanse 32B是一個強大的多語言大語言模型，支持23種語言，適用於多語言文本生成和理解任務。

模型特點

多語言支持

支持23種語言，包括主要歐洲和亞洲語言。

高性能預訓練

結合了Command系列模型的高性能預訓練技術。

安全調優

經過安全調優，確保生成內容的安全性。

長上下文支持

支持128K的上下文長度。

模型能力

多語言文本生成

多語言問答

多語言寫作輔助

多語言對話系統

使用案例

寫作輔助

多語言信件寫作

幫助用戶用不同語言撰寫信件，如給媽媽的信。

生成情感豐富、語法正確的多語言信件。

問答系統

多語言問答

回答用戶用不同語言提出的問題。

提供準確、相關的多語言回答。

內容創作

多語言內容生成

生成多語言的博客文章、故事等內容。

生成流暢、連貫的多語言內容。

🚀 Aya-Expanse-32B模型介紹

Aya Expanse 32B 是一款具有高度先進多語言能力的模型的開放權重研究版本。它將高性能的預訓練 Command系列模型與 Cohere Labs 一年的專項研究成果相結合，這些研究包括數據套利、多語言偏好訓練、安全調優和模型融合。最終得到的是一個支持23種語言的強大多語言大語言模型。

此模型卡片對應Aya Expanse模型的320億參數版本。我們還發布了80億參數版本，你可以在此找到。

🚀 快速開始

試用Aya Expanse

你可以使用 Cohere playground 或我們的 Hugging Face Space 進行交互式探索。

如何使用Aya Expanse

安裝transformers庫並按如下方式加載Aya Expanse 32B：

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "CohereLabs/aya-expanse-32b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Format message with the chat template
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

gen_tokens = model.generate(
    input_ids, 
    max_new_tokens=100, 
    do_sample=True, 
    temperature=0.3,
    )

gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)

示例筆記本

微調：詳細微調筆記本。
社區貢獻用例：以下由 Cohere Labs社區 成員貢獻的筆記本展示了Aya Expanse在不同用例中的應用：

✨ 主要特性

多語言支持：該模型特別針對多語言進行了優化，支持23種語言，包括阿拉伯語、中文（簡體和繁體）、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。
高性能架構：Aya Expanse 32B是一個自迴歸語言模型，採用了優化的Transformer架構。訓練後處理包括監督微調、偏好訓練和模型融合。
長上下文處理：上下文長度可達128K。

📚 詳細文檔

模型詳情

屬性	詳情
輸入	模型僅接受文本輸入。
輸出	模型僅生成文本。
模型架構	Aya Expanse 32B是一個自迴歸語言模型，採用優化的Transformer架構。訓練後包括監督微調、偏好訓練和模型融合。
支持語言	阿拉伯語、中文（簡體和繁體）、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語
上下文長度	128K

評估

我們使用 Aya評估套件數據集中的 dolly_human_edited 子集和基於 Arena-Hard-Auto數據集並翻譯成Aya Expanse支持的23種語言的m-ArenaHard數據集，將Aya Expanse 32B與Gemma 2 27B、Llama 3.1 70B、Mixtral 8x22B和Qwen 2.5 35B進行了對比評估。勝率使用gpt - 4o - 2024 - 08 - 06作為評判標準。為了進行保守基準測試，我們報告了gpt - 4o - 2024 - 08 - 06的結果，不過gpt - 4o - mini的得分顯示出更強的性能。

用於評估Aya Expanse能力的m-ArenaHard數據集在此公開可用。

WhatsApp集成

你還可以通過流行的消息服務WhatsApp與Aya Expanse進行對話。使用此鏈接打開與Aya Expanse的WhatsApp聊天框。如果你沒有在設備上下載WhatsApp，可能需要先下載；或者如果你在手機上安裝了它，可以按照屏幕上的說明將手機與WhatsApp Web進行關聯。最後，你將看到一個文本窗口，可用於與模型聊天。有關我們的WhatsApp集成的更多詳細信息在此提供。

📄 許可證

本模型受 CC-BY-NC 許可證約束，同時還需遵守 Cohere Lab的可接受使用政策。

模型卡片聯繫方式

如果你發現此模型卡片中的錯誤或有其他問題，請聯繫labs@cohere.com。

引用

你可以使用以下方式引用Aya Expanse：

@misc{dang2024ayaexpansecombiningresearch,
      title={Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier}, 
      author={John Dang and Shivalika Singh and Daniel D'souza and Arash Ahmadian and Alejandro Salamanca and Madeline Smith and Aidan Peppin and Sungjin Hong and Manoj Govindassamy and Terrence Zhao and Sandra Kublik and Meor Amer and Viraat Aryabumi and Jon Ander Campos and Yi-Chern Tan and Tom Kocmi and Florian Strub and Nathan Grinsztajn and Yannis Flet-Berliac and Acyr Locatelli and Hangyu Lin and Dwarak Talupuru and Bharat Venkitesh and David Cairuz and Bowen Yang and Tim Chung and Wei-Yin Ko and Sylvie Shang Shi and Amir Shukayev and Sammie Bae and Aleksandra Piktus and Roman Castagné and Felipe Cruz-Salinas and Eddie Kim and Lucas Crawhall-Stein and Adrien Morisot and Sudip Roy and Phil Blunsom and Ivan Zhang and Aidan Gomez and Nick Frosst and Marzieh Fadaee and Beyza Ermis and Ahmet Üstün and Sara Hooker},
      year={2024},
      eprint={2412.04261},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.04261}, 
}