模型概述
模型特點
模型能力
使用案例
🚀 Aya Expanse 8B模型介紹
Aya Expanse 8B 是一款具有高度先進多語言能力的模型的開放權重研究版本。它將高性能的預訓練 Command系列 模型與 Cohere Labs 一年的專注研究成果相結合,這些研究成果包括 數據套利、多語言偏好訓練、安全調優 和 模型融合。最終得到的是一個強大的多語言大語言模型。
🚀 快速開始
試用Aya Expanse
你可以使用 Cohere playground 或我們的 Hugging Face Space 進行交互式探索。
安裝與使用
安裝 transformers
庫並按如下方式加載Aya Expanse 8B:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# Format the message with the chat template
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
示例筆記本
- 微調:詳細微調筆記本。
- 社區貢獻用例:以下由 Cohere Labs社區 成員貢獻的筆記本展示了Aya Expanse在不同用例中的應用:
✨ 主要特性
- 多語言能力:支持23種語言,包括阿拉伯語、中文(簡體和繁體)、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。
- 高性能:結合了多種先進的研究成果,如數據套利、多語言偏好訓練、安全調優和模型融合。
📦 安裝指南
安裝 transformers
庫並加載Aya Expanse 8B的代碼如下:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# Format the message with the chat template
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
📚 詳細文檔
模型詳情
- 輸入:模型僅接受文本輸入。
- 輸出:模型僅生成文本輸出。
- 模型架構:Aya Expanse 8B是一個自迴歸語言模型,使用了優化的Transformer架構。訓練後包括監督微調、偏好訓練和模型融合。
- 支持語言:該模型針對多語言進行了特別優化,支持23種語言,具體語言列表見上文。
- 上下文長度:8K
更多關於模型訓練的詳細信息,請查看 我們的博客文章。
評估
我們使用 Aya評估套件數據集 中的 dolly_human_edited
子集和基於 Arena-Hard-Auto數據集 並翻譯為Aya Expanse 8B支持的23種語言的m-ArenaHard數據集,將Aya Expanse 8B與Gemma 2 9B、Llama 3.1 8B、Ministral 8B和Qwen 2.5 7B進行了評估。勝率使用gpt-4o-2024-08-06作為評判標準。為了進行保守基準測試,我們報告了gpt-4o-2024-08-06的結果,不過gpt-4o-mini的得分顯示出更強的性能。
用於評估Aya Expanse能力的m-ArenaHard數據集可在 此處 公開獲取。
WhatsApp集成
你還可以通過流行的消息服務WhatsApp與Aya Expanse進行對話。使用此 鏈接 打開與Aya Expanse的WhatsApp聊天框。如果你沒有在設備上下載WhatsApp,可能需要先下載;或者,如果你在手機上安裝了WhatsApp,可以按照屏幕上的說明將手機與WhatsApp Web鏈接起來。最後,你將看到一個文本窗口,可用於與模型聊天。有關我們的WhatsApp集成的更多詳細信息,請查看 此處。
模型卡片聯繫信息
如果你對本模型卡片中的細節有錯誤反饋或額外問題,請聯繫 labs@cohere.com。
使用條款
我們希望通過向世界各地的研究人員發佈高性能多語言模型的權重,使基於社區的研究工作更加容易開展。該模型受 CC-BY-NC 許可協議的約束,同時還需要遵守 Cohere Lab的可接受使用政策。
引用
你可以使用以下方式引用Aya Expanse:
@misc{dang2024ayaexpansecombiningresearch,
title={Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier},
author={John Dang and Shivalika Singh and Daniel D'souza and Arash Ahmadian and Alejandro Salamanca and Madeline Smith and Aidan Peppin and Sungjin Hong and Manoj Govindassamy and Terrence Zhao and Sandra Kublik and Meor Amer and Viraat Aryabumi and Jon Ander Campos and Yi-Chern Tan and Tom Kocmi and Florian Strub and Nathan Grinsztajn and Yannis Flet-Berliac and Acyr Locatelli and Hangyu Lin and Dwarak Talupuru and Bharat Venkitesh and David Cairuz and Bowen Yang and Tim Chung and Wei-Yin Ko and Sylvie Shang Shi and Amir Shukayev and Sammie Bae and Aleksandra Piktus and Roman Castagné and Felipe Cruz-Salinas and Eddie Kim and Lucas Crawhall-Stein and Adrien Morisot and Sudip Roy and Phil Blunsom and Ivan Zhang and Aidan Gomez and Nick Frosst and Marzieh Fadaee and Beyza Ermis and Ahmet Üstün and Sara Hooker},
year={2024},
eprint={2412.04261},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.04261},
}
信息表格
屬性 | 詳情 |
---|---|
模型類型 | 自迴歸語言模型,使用優化的Transformer架構 |
訓練數據 | 結合了多種研究成果,包括數據套利、多語言偏好訓練、安全調優和模型融合 |
支持語言 | 阿拉伯語、中文(簡體和繁體)、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語 |
上下文長度 | 8K |
許可證 | CC-BY-NC,需遵守 Cohere Lab's Acceptable Use Policy |
開發團隊 | Cohere Labs |
聯繫信息 | labs@cohere.com |
模型大小 | 80億參數 |
其他版本 | Aya Expanse 32B |
評估數據集 | Aya評估套件數據集 中的 dolly_human_edited 子集和m-ArenaHard數據集 |
評估評判標準 | gpt-4o-2024-08-06 |
WhatsApp集成鏈接 | https://wa.me/14313028498 |
詳細信息鏈接 | 博客文章、m-ArenaHard數據集、WhatsApp集成詳細信息 |
引用信息 | 見上文引用代碼 |



