🚀 Aya-23-8B 模型卡片
Aya-23-8B 是一款具有高度先進多語言能力的指令微調模型的開放權重研究版本,支持 23 種語言,能為多語言場景提供強大的文本處理能力。
🚀 快速開始
模型版本說明
注意:這是 Aya 的舊版本。最新版本是 Aya Expanse 8B,可在此處獲取。我們還有多模態變體 Aya Vision 8B,可在此處獲取。
試用最新模型
你可以在我們託管的 Hugging Face 空間此處中,在下載權重之前試用最新的 Aya 模型。
✨ 主要特性
- 多語言能力:Aya 23 專注於將高性能的預訓練 Command 系列模型與最近發佈的 Aya 數據集相結合,最終得到一個支持 23 種語言的強大多語言大語言模型。這 23 種語言包括阿拉伯語、中文(簡體和繁體)、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。
- 模型版本:本模型卡片對應 Aya 23 模型的 80 億參數版本。我們還發布了 350 億參數版本,可在此處找到。
📦 安裝指南
請從包含此模型必要更改的源倉庫安裝 transformers:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-23-8B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
💻 使用示例
基礎用法
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
示例筆記本
此筆記本展示了 Aya 23 (8B) 的詳細使用方法,包括使用 QLoRA 進行推理和微調。
📚 詳細文檔
模型詳情
- 輸入:模型僅接受文本輸入。
- 輸出:模型僅生成文本輸出。
- 模型架構:Aya-23-8B 是一個自迴歸語言模型,使用優化的 Transformer 架構。預訓練後,該模型進行了指令微調(IFT)以遵循人類指令。
- 支持語言:該模型針對多語言進行了特別優化,支持以下語言:阿拉伯語、中文(簡體和繁體)、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。
- 上下文長度:8192
評估

有關基礎模型、數據、指令調優和評估的更多詳細信息,請參考 Aya 23 技術報告。
模型卡片聯繫信息
如果對本模型卡片中的細節有錯誤或其他問題,請聯繫 labs@cohere.com。
使用條款
我們希望通過向世界各地的研究人員發佈高性能多語言模型的權重,使基於社區的研究工作更加容易開展。此模型受 CC - BY - NC 許可證約束,並要求遵守 Cohere Lab 的可接受使用政策。
立即試用模型
你可以在 Cohere playground 中試用 Aya 23。你也可以在我們專用的 Hugging Face 空間此處中使用它。
引用信息
@misc{aryabumi2024aya,
title={Aya 23: Open Weight Releases to Further Multilingual Progress},
author={Viraat Aryabumi and John Dang and Dwarak Talupuru and Saurabh Dash and David Cairuz and Hangyu Lin and Bharat Venkitesh and Madeline Smith and Kelly Marchisio and Sebastian Ruder and Acyr Locatelli and Julia Kreutzer and Nick Frosst and Phil Blunsom and Marzieh Fadaee and Ahmet Üstün and Sara Hooker},
year={2024},
eprint={2405.15032},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本模型使用 CC - BY - NC 許可證,同時需要遵守 Cohere Lab 的可接受使用政策。
額外信息
- 推理:false
- 庫名稱:transformers
- 支持語言:英語、法語、德語、西班牙語、意大利語、葡萄牙語、日語、韓語、中文、阿拉伯語、希臘語、波斯語、波蘭語、印尼語、捷克語、希伯來語、印地語、荷蘭語、羅馬尼亞語、俄語、土耳其語、烏克蘭語、越南語
- 額外授權提示:通過提交此表單,你同意 許可協議,並確認你提供的信息將根據 Cohere 的 隱私政策 進行收集、使用和共享。你將收到有關 Cohere Labs 和 Cohere 研究、活動、產品和服務的電子郵件更新。你可以隨時取消訂閱。
- 額外授權字段:
- 姓名:文本輸入
- 所屬機構:文本輸入
- 國家:下拉選擇(包含眾多國家選項)
- 僅用於非商業用途:複選框