Aya-23-8B開源指令微調模型 - 支持23種語言的多語言交流神器

首頁

Aya 23 8B

由CohereLabs開發

Aya-23是一個開放權重的指令微調模型研究版本，具有高度先進的多語言能力，支持23種語言。

大型語言模型

Transformers

支持多種語言#23種語言支持 #指令微調 #開放權重研究

下載量 10.28k

發布時間 : 4/25/2025

模型概述

Aya 23是一個強大的多語言大語言模型，結合了高性能的預訓練Command系列模型與Aya數據集，專注於多語言指令微調。

模型特點

多語言支持

支持23種語言的文本生成和指令跟隨。

指令微調

經過指令微調，能夠更好地理解和執行人類指令。

開放權重

模型權重開放，可用於非商業用途的研究和開發。

模型能力

多語言文本生成

指令跟隨

對話生成

使用案例

多語言應用

多語言客服

用於多語言客服場景，生成自然流暢的回覆。

教育輔助

輔助語言學習，生成多語言的學習材料和練習。

研究

多語言模型研究

用於研究多語言模型的性能和能力。

🚀 Aya-23-8B 模型卡片

Aya-23-8B 是一款具有高度先進多語言能力的指令微調模型的開放權重研究版本，支持 23 種語言，能為多語言場景提供強大的文本處理能力。

🚀 快速開始

模型版本說明

注意：這是 Aya 的舊版本。最新版本是 Aya Expanse 8B，可在此處獲取。我們還有多模態變體 Aya Vision 8B，可在此處獲取。

試用最新模型

你可以在我們託管的 Hugging Face 空間此處中，在下載權重之前試用最新的 Aya 模型。

✨ 主要特性

多語言能力：Aya 23 專注於將高性能的預訓練 Command 系列模型與最近發佈的 Aya 數據集相結合，最終得到一個支持 23 種語言的強大多語言大語言模型。這 23 種語言包括阿拉伯語、中文（簡體和繁體）、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。
模型版本：本模型卡片對應 Aya 23 模型的 80 億參數版本。我們還發布了 350 億參數版本，可在此處找到。

📦 安裝指南

請從包含此模型必要更改的源倉庫安裝 transformers：

# pip install transformers==4.41.1
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "CohereLabs/aya-23-8B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

💻 使用示例

基礎用法

# Format message with the command-r-plus chat template
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

gen_tokens = model.generate(
    input_ids, 
    max_new_tokens=100, 
    do_sample=True, 
    temperature=0.3,
    )

gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)

示例筆記本

此筆記本展示了 Aya 23 (8B) 的詳細使用方法，包括使用 QLoRA 進行推理和微調。

📚 詳細文檔

模型詳情

輸入：模型僅接受文本輸入。
輸出：模型僅生成文本輸出。
模型架構：Aya-23-8B 是一個自迴歸語言模型，使用優化的 Transformer 架構。預訓練後，該模型進行了指令微調（IFT）以遵循人類指令。
支持語言：該模型針對多語言進行了特別優化，支持以下語言：阿拉伯語、中文（簡體和繁體）、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語和越南語。
上下文長度：8192

評估

多語言基準測試平均勝率

有關基礎模型、數據、指令調優和評估的更多詳細信息，請參考 Aya 23 技術報告。

模型卡片聯繫信息

如果對本模型卡片中的細節有錯誤或其他問題，請聯繫 labs@cohere.com。

使用條款

我們希望通過向世界各地的研究人員發佈高性能多語言模型的權重，使基於社區的研究工作更加容易開展。此模型受 CC - BY - NC 許可證約束，並要求遵守 Cohere Lab 的可接受使用政策。

立即試用模型

你可以在 Cohere playground 中試用 Aya 23。你也可以在我們專用的 Hugging Face 空間此處中使用它。

引用信息

@misc{aryabumi2024aya,
      title={Aya 23: Open Weight Releases to Further Multilingual Progress}, 
      author={Viraat Aryabumi and John Dang and Dwarak Talupuru and Saurabh Dash and David Cairuz and Hangyu Lin and Bharat Venkitesh and Madeline Smith and Kelly Marchisio and Sebastian Ruder and Acyr Locatelli and Julia Kreutzer and Nick Frosst and Phil Blunsom and Marzieh Fadaee and Ahmet Üstün and Sara Hooker},
      year={2024},
      eprint={2405.15032},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

📄 許可證

本模型使用 CC - BY - NC 許可證，同時需要遵守 Cohere Lab 的可接受使用政策。

額外信息

推理：false
庫名稱：transformers
支持語言：英語、法語、德語、西班牙語、意大利語、葡萄牙語、日語、韓語、中文、阿拉伯語、希臘語、波斯語、波蘭語、印尼語、捷克語、希伯來語、印地語、荷蘭語、羅馬尼亞語、俄語、土耳其語、烏克蘭語、越南語
額外授權提示：通過提交此表單，你同意許可協議，並確認你提供的信息將根據 Cohere 的隱私政策進行收集、使用和共享。你將收到有關 Cohere Labs 和 Cohere 研究、活動、產品和服務的電子郵件更新。你可以隨時取消訂閱。
額外授權字段：
- 姓名：文本輸入
- 所屬機構：文本輸入
- 國家：下拉選擇（包含眾多國家選項）
僅用於非商業用途：複選框

屬性	詳情
模型類型	自迴歸語言模型，使用優化的 Transformer 架構
訓練數據	結合預訓練的 Command 系列模型與 Aya 數據集
開發團隊	Cohere Labs 和 Cohere
聯繫方式	Cohere Labs: cohere.for.ai
許可證	CC - BY - NC，需遵守 Cohere Lab 的可接受使用政策
模型名稱	aya - 23 - 8B
模型大小	80 億參數