🚀 Aya-Expanse-32B
Aya Expanse 32B は、高度な多言語機能を備えたモデルのオープンウェイト研究版です。このモデルは、高性能な事前学習済みの Command ファミリー のモデルと、Cohere Labs の 1 年間にわたる研究成果を組み合わせています。研究内容には、データアービトラージ、多言語嗜好トレーニング、セーフティチューニング、モデルマージ などが含まれています。その結果、23 言語に対応した強力な多言語大規模言語モデルが生まれました。
このモデルカードは、Aya Expanse モデルの 320 億パラメータ版に対応しています。また、80 億パラメータ版もリリースしており、こちら で見ることができます。
🚀 クイックスタート
サポート言語
このモデルは 23 言語に対応しています。アラビア語、中国語(簡体字・繁体字)、チェコ語、オランダ語、英語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、ペルシャ語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スペイン語、トルコ語、ウクライナ語、ベトナム語です。
試してみる:Aya Expanse の実行
Cohere プレイグラウンド または Hugging Face Space を使用して、対話的に探索してください。
Aya Expanse の使い方
transformers ライブラリをインストールし、以下のように Aya Expanse 32B をロードします。
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-expanse-32b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
サンプルノートブック
ファインチューニング
コミュニティ貢献のユースケース
Cohere Labs コミュニティ のメンバーによって貢献された以下のノートブックは、Aya Expanse をさまざまなユースケースでどのように使用できるかを示しています。
📚 ドキュメント
モデルの詳細
- 入力:モデルはテキストのみを入力として受け取ります。
- 出力:モデルはテキストのみを生成します。
- モデルアーキテクチャ:Aya Expanse 32B は、最適化されたトランスフォーマーアーキテクチャを使用した自己回帰型言語モデルです。事後学習には、教師付きファインチューニング、嗜好トレーニング、モデルマージが含まれます。
- 対応言語:このモデルは多言語に特化して最適化されており、以下の言語をサポートしています。アラビア語、中国語(簡体字・繁体字)、チェコ語、オランダ語、英語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、ペルシャ語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スペイン語、トルコ語、ウクライナ語、ベトナム語。
- コンテキスト長:128K
評価
Aya Evaluation Suite データセット の dolly_human_edited
サブセットと、Arena-Hard-Auto データセット を基に作成され、Aya Expanse でサポートする 23 言語に翻訳された m-ArenaHard データセットを使用して、Aya Expanse 32B を Gemma 2 27B、Llama 3.1 70B、Mixtral 8x22B、Qwen 2.5 35B と比較評価しました。勝率は、gpt-4o-2024-08-06 を審判として決定されました。保守的なベンチマークとして、gpt-4o-2024-08-06 の結果を報告していますが、gpt-4o-mini のスコアはさらに強力な性能を示していました。
Aya Expanse の能力を評価するために使用された m-ArenaHard データセットは、こちら で公開されています。
WhatsApp 統合
人気のメッセージングサービスである WhatsApp を通じて Aya Expanse と会話することもできます。このリンク を使用して、Aya Expanse との WhatsApp チャットボックスを開いてください。マシンに WhatsApp がインストールされていない場合は、インストールする必要があります。また、携帯電話にインストールされている場合は、画面の指示に従って携帯電話と WhatsApp Web をリンクすることができます。最後に、モデルとチャットするためのテキストウィンドウが表示されます。WhatsApp 統合の詳細については、こちら を参照してください。
モデルカードの問い合わせ
このモデルカードの詳細に関するエラーや追加の質問がある場合は、labs@cohere.com までお問い合わせください。
使用条件
このモデルのリリースにより、高性能な多言語モデルのウェイトを世界中の研究者に公開することで、コミュニティベースの研究活動がよりアクセスしやすくなることを期待しています。このモデルは CC-BY-NC に基づいて管理されており、Cohere Lab's Acceptable Use Policy にも準拠する必要があります。
引用
Aya Expanse を引用するには、以下のようにしてください。
@misc{dang2024ayaexpansecombiningresearch,
title={Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier},
author={John Dang and Shivalika Singh and Daniel D'souza and Arash Ahmadian and Alejandro Salamanca and Madeline Smith and Aidan Peppin and Sungjin Hong and Manoj Govindassamy and Terrence Zhao and Sandra Kublik and Meor Amer and Viraat Aryabumi and Jon Ander Campos and Yi-Chern Tan and Tom Kocmi and Florian Strub and Nathan Grinsztajn and Yannis Flet-Berliac and Acyr Locatelli and Hangyu Lin and Dwarak Talupuru and Bharat Venkitesh and David Cairuz and Bowen Yang and Tim Chung and Wei-Yin Ko and Sylvie Shang Shi and Amir Shukayev and Sammie Bae and Aleksandra Piktus and Roman Castagné and Felipe Cruz-Salinas and Eddie Kim and Lucas Crawhall-Stein and Adrien Morisot and Sudip Roy and Phil Blunsom and Ivan Zhang and Aidan Gomez and Nick Frosst and Marzieh Fadaee and Beyza Ermis and Ahmet Üstün and Sara Hooker},
year={2024},
eprint={2412.04261},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.04261},
}
📄 ライセンス
このモデルは CC-BY-NC に基づいて管理されており、Cohere Lab's Acceptable Use Policy にも準拠する必要があります。
注意事項
⚠️ 重要提示
このフォームに記入することで、あなたは ライセンス契約 に同意し、提供する情報が Cohere の プライバシーポリシー に従って収集、使用、共有されることを承認することになります。あなたは、Cohere Labs および Cohere の研究、イベント、製品、サービスに関するメール更新を受け取ります。いつでも購読を解除することができます。
情報一覧
属性 |
详情 |
推論 |
false |
ライブラリ名 |
transformers |
サポート言語 |
英語、フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、日本語、韓国語、中国語、アラビア語、ギリシャ語、ペルシャ語、ポーランド語、インドネシア語、チェコ語、ヘブライ語、ヒンディー語、オランダ語、ルーマニア語、ロシア語、トルコ語、ウクライナ語、ベトナム語 |
ライセンス |
cc-by-nc-4.0 |
開発元 |
Cohere Labs |
問い合わせ先 |
Cohere Labs |
モデル |
Aya Expanse 32B |
モデルサイズ |
320 億パラメータ |
入力 |
テキストのみ |
出力 |
テキストのみ |
モデルアーキテクチャ |
最適化されたトランスフォーマーアーキテクチャを使用した自己回帰型言語モデル。事後学習には、教師付きファインチューニング、嗜好トレーニング、モデルマージが含まれます。 |
対応言語 |
アラビア語、中国語(簡体字・繁体字)、チェコ語、オランダ語、英語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、ペルシャ語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スペイン語、トルコ語、ウクライナ語、ベトナム語 |
コンテキスト長 |
128K |