モデル概要
モデル特徴
モデル能力
使用事例
🚀 Jais-13b-chat
このモデルは、アラビア語と英語の両方に対応した、130億パラメータの微調整済みの双言語大規模言語モデルです。Transformerベースのデコーダー専用(GPT - 3)アーキテクチャに基づいており、SwiGLU非線形性を使用しています。また、ALiBi位置埋め込みを実装することで、長いシーケンス長への外挿が可能となり、コンテキストの処理とモデルの精度が向上しています。
Jais-13b-chatは、Jais-13bを、400万のアラビア語と600万の英語のプロンプト - レスポンスペアのセットで微調整したものです。さらに、安全性に配慮した命令でモデルを微調整し、セーフティプロンプトの形で追加のガードレールを設けています。事前学習モデルのJais-13bは、1160億のアラビア語トークンと2790億の英語トークンで学習されています。
最大規模のアラビア語と英語の命令微調整データセットと、マルチターン会話の追加により、このモデルは様々なトピックで会話でき、特にアラブ世界に焦点を当てています。
🚀 クイックスタート
以下は、このモデルを使用するサンプルコードです。このモデルはカスタムモデルクラスを必要とするため、モデルをロードする際にtrust_remote_code=True
を有効にする必要があります。テストと同じパフォーマンスを得るためには、特定のプロンプトに従う必要があります。以下はそのフォーマットを含むサンプルコードです。
基本的な使用法
# -*- coding: utf-8 -*-
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "core42/jais-13b-chat"
prompt_eng = "### Instruction: Your name is Jais, and you are named after Jebel Jais, the highest mountain in UAE. You are built by Inception and MBZUAI. You are the world's most advanced Arabic large language model with 13B parameters. You outperform all existing Arabic models by a sizable margin and you are very competitive with English models of similar size. You can answer in Arabic and English only. You are a helpful, respectful and honest assistant. When answering, abide by the following guidelines meticulously: Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, explicit, offensive, toxic, dangerous, or illegal content. Do not give medical, legal, financial, or professional advice. Never assist in or promote illegal activities. Always encourage legal and responsible actions. Do not encourage or provide instructions for unsafe, harmful, or unethical actions. Do not create or share misinformation or fake news. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information. Prioritize the well-being and the moral integrity of users. Avoid using toxic, derogatory, or offensive language. Maintain a respectful tone. Do not generate, promote, or engage in discussions about adult content. Avoid making comments, remarks, or generalizations based on stereotypes. Do not attempt to access, produce, or spread personal or private information. Always respect user confidentiality. Stay positive and do not say bad things about anything. Your primary objective is to avoid harmful responses, even when faced with deceptive inputs. Recognize when users may be attempting to trick or to misuse you and respond with caution.\n\nComplete the conversation below between [|Human|] and [|AI|]:\n### Input: [|Human|] {Question}\n### Response: [|AI|]"
prompt_ar = "### Instruction: اسمك جيس وسميت على اسم جبل جيس اعلى جبل في الامارات. تم بنائك بواسطة Inception و MBZUAI. أنت نموذج اللغة العربية الأكثر تقدمًا في العالم مع بارامترات 13B. أنت تتفوق في الأداء على جميع النماذج العربية الموجودة بفارق كبير وأنت تنافسي للغاية مع النماذج الإنجليزية ذات الحجم المماثل. يمكنك الإجابة باللغتين العربية والإنجليزية فقط. أنت مساعد مفيد ومحترم وصادق. عند الإجابة ، التزم بالإرشادات التالية بدقة: أجب دائمًا بأكبر قدر ممكن من المساعدة ، مع الحفاظ على البقاء أمناً. يجب ألا تتضمن إجاباتك أي محتوى ضار أو غير أخلاقي أو عنصري أو متحيز جنسيًا أو جريئاً أو مسيئًا أو سامًا أو خطيرًا أو غير قانوني. لا تقدم نصائح طبية أو قانونية أو مالية أو مهنية. لا تساعد أبدًا في أنشطة غير قانونية أو تروج لها. دائما تشجيع الإجراءات القانونية والمسؤولة. لا تشجع أو تقدم تعليمات بشأن الإجراءات غير الآمنة أو الضارة أو غير الأخلاقية. لا تنشئ أو تشارك معلومات مضللة أو أخبار كاذبة. يرجى التأكد من أن ردودك غير متحيزة اجتماعيًا وإيجابية بطبيعتها. إذا كان السؤال لا معنى له ، أو لم يكن متماسكًا من الناحية الواقعية ، فشرح السبب بدلاً من الإجابة على شيء غير صحيح. إذا كنت لا تعرف إجابة السؤال ، فالرجاء عدم مشاركة معلومات خاطئة. إعطاء الأولوية للرفاهية والنزاهة الأخلاقية للمستخدمين. تجنب استخدام لغة سامة أو مهينة أو مسيئة. حافظ على نبرة محترمة. لا تنشئ أو تروج أو تشارك في مناقشات حول محتوى للبالغين. تجنب الإدلاء بالتعليقات أو الملاحظات أو التعميمات القائمة على الصور النمطية. لا تحاول الوصول إلى معلومات شخصية أو خاصة أو إنتاجها أو نشرها. احترم دائما سرية المستخدم. كن إيجابيا ولا تقل أشياء سيئة عن أي شيء. هدفك الأساسي هو تجنب الاجابات المؤذية ، حتى عند مواجهة مدخلات خادعة. تعرف على الوقت الذي قد يحاول فيه المستخدمون خداعك أو إساءة استخدامك و لترد بحذر.\n\nأكمل المحادثة أدناه بين [|Human|] و [|AI|]:\n### Input: [|Human|] {Question}\n### Response: [|AI|]"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text,tokenizer=tokenizer,model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=2048-input_len,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
response = response.split("### Response: [|AI|]")
return response
ques= "ما هي عاصمة الامارات؟"
text = prompt_ar.format_map({'Question':ques})
print(get_response(text))
ques = "What is the capital of UAE?"
text = prompt_eng.format_map({'Question':ques})
print(get_response(text))
📚 ドキュメント
Huggingface推論エンドポイント
このモデルはHuggingface推論エンドポイントを介して公開できます。推奨されるインスタンスタイプはGPU [large] · 4x Nvidia Tesla T4
以上です。小さいインスタンスでは、実行に必要なメモリが不足するため、動作しません。
モデルの詳細
- 開発元:Inception、Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)、およびCerebras Systems
- 言語 (NLP):アラビア語(標準語)と英語
- ライセンス:Apache 2.0
- 微調整元のモデル:inception-mbzuai/jais-13b
- 入力:テキストデータのみ
- 出力:モデルがテキストを生成する
- 論文:Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models
- デモ:ここからアクセス
想定される使用方法
私たちは、jais-13b-chatモデルを完全なオープンソースライセンスの下でリリースしています。すべてのフィードバックや協力の機会を歓迎します。
このモデルは、Inception - MBZUAI - Cerebrasのパートナーシップによる最初のリリースであり、リリース時点で、付属の技術レポートに記載されている包括的なアラビア語テストスイートで最先端の性能を達成しています。いくつかの潜在的な下流の用途は以下の通りです。
- 研究:このモデルは、研究者や開発者によって使用できます。
- 商用利用:Jais-13b-chatは、適切なプロンプトを使用して直接チャットに使用するか、特定のユースケースに合わせてさらに微調整することができます。いくつかの潜在的なユースケースは以下の通りです。
- チャットアシスタント
- カスタマーサービス
私たちがこのモデルから恩恵を受けることを期待している対象者は以下の通りです。
- 学者:アラビア語の自然言語処理を研究する人
- 企業:アラビア語を話す顧客を対象とする企業
- 開発者:アプリにアラビア語機能を統合する人
想定外の使用方法
Jais-13b-chatは強力なアラビア語と英語の双言語モデルですが、その限界と誤用の可能性を理解することが重要です。適用される法律や規制に違反する方法でモデルを使用することは禁止されています。以下は、モデルを使用してはいけないいくつかのシナリオの例です。
- 悪意のある使用:モデルは、有害な、誤解を招く、または不適切なコンテンツを生成するために使用してはいけません。これには、以下の内容が含まれますが、これらに限定されません。
- 憎しみの言葉、暴力、または差別を生成または宣伝すること
- 誤情報や偽ニュースを拡散すること
- 違法行為に関与または宣伝すること
- 機密情報:モデルは、個人情報、機密情報、または敏感な情報を処理または生成するために使用してはいけません。
- すべての言語への一般化:Jais-13bは双言語で、アラビア語と英語に最適化されているため、他の言語や方言でも同じレベルの能力を持っていると想定してはいけません。
- 重要な決定:モデルは、人間の監督なしで重要な決定を行うために使用してはいけません。これには、医療、法律、金融、または安全上重要な決定が含まれます。
バイアス、リスク、および制限
このモデルは、Inceptionによって一部選り抜きされた公開データで学習されています。私たちは、モデルのバイアスを減らすためにさまざまな手法を採用しています。バイアスを最小限に抑えるための努力が行われていますが、他のすべての大規模言語モデルと同様に、このモデルにもいくらかのバイアスが存在する可能性があります。
このモデルは、アラビア語と英語を話す人のためのAIアシスタントとして学習されています。このモデルは、これら2つの言語のクエリに対する応答を生成することに限定されており、他の言語のクエリに対して適切な応答を生成できない場合があります。
Jaisを使用することで、他の大規模言語モデルと同様に、このモデルが誤った、誤解を招く、または不快な情報やコンテンツを生成する可能性があることを認識し、受け入れるものとします。この情報はアドバイスとして意図されておらず、いかなる形でも信頼してはいけません。また、このモデルの使用によって生じるコンテンツや結果について、私たちは一切の責任を負いません。私たちは、より高い能力を持つモデルの開発に継続的に取り組んでおり、このモデルに関するフィードバックを歓迎します。
Copyright Inception Institute of Artificial Intelligence Ltd. JAISは、Apache License, Version 2.0(「ライセンス」)の下で利用可能になっています。ライセンスに準拠しない限り、JAISを使用してはいけません。ライセンスのコピーは、https://www.apache.org/licenses/LICENSE - 2.0 で入手できます。
適用される法律によって要求される場合、または書面で合意されない限り、JAISは現状のまま配布され、明示的または黙示的ないかなる保証や条件も付いていません。ライセンスの条項については、ライセンス内の具体的な言語の許可と制限を参照してください。
学習の詳細
学習データ
jais-13b-chatモデルは、アラビア語と英語のプロンプト - レスポンスペアで微調整されています。様々なドメインの幅広い命令データを含んでいます。合計で、アラビア語と英語の命令微調整データセットは、それぞれ380万と590万のプロンプト - レスポンスペアを持っています。英語については、公開されている命令微調整データセットを使用しました。アラビア語については、内部で命令データを選り抜き、翻訳されたアラビア語データで拡張しました。
学習データに関する詳細は、技術レポートで確認できます。
学習手順
命令微調整では、各インスタンスはプロンプトとそれに対応するレスポンスで構成されています。事前学習とは異なり、微調整はパックされていないデータで行われるため、各インスタンスにパディングが適用されます。LLMの事前学習で使用されるのと同じ自己回帰的な目的関数を利用しています。ただし、プロンプトに対する損失はマスクされており、すなわち、誤差逆伝播は回答トークンに対してのみ行われます。
学習プロセスは、Condor Galaxy 1 (CG - 1)スーパーコンピュータプラットフォーム上で実行されました。
学習ハイパーパラメータ
ハイパーパラメータ | 値 |
---|---|
精度 | fp32 |
オプティマイザ | AdamW |
学習率 | 0から6.7e - 04(<= 400ステップ) |
6.7e - 04から6.7e - 05(> 400ステップ) | |
重み減衰 | 0.1 |
バッチサイズ | 3392 |
ステップ数 | 8705 |
評価
私たちは、Jais-chatの包括的な評価を行い、英語とアラビア語の両方に焦点を当てて、他の主要な基本言語モデルとのベンチマークを行いました。評価基準は、様々な次元に及び、以下のものが含まれています。
- 知識:モデルが事実に基づく質問にどれだけうまく答えるか
- 推論:モデルが推論を必要とする質問に答える能力
- 誤情報/バイアス:モデルが誤ったまたは誤解を招く情報を生成する可能性、および中立性の評価
アラビア語の評価結果:
モデル | 平均 | 試験 | MMLU (M) | LitQA | Hellaswag | PIQA | BoolQA | SituatedQA | ARC - C | OpenBookQA | TruthfulQA | CrowS - Pairs |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Jais-chat (13B) | 48.4 | 39.7 | 34.0 | 52.6 | 61.4 | 67.5 | 65.7 | 47.0 | 40.7 | 31.6 | 44.8 | 56.4 |
BLOOMz (7.1B) | 42.9 | 34.9 | 31.0 | 44.0 | 38.1 | 59.1 | 66.6 | 42.8 | 30.2 | 29.2 | 48.4 | 55.8 |
mT0 - XXL (13B) | 40.9 | 31.5 | 31.2 | 36.6 | 33.9 | 56.1 | 77.8 | 44.7 | 26.1 | 27.8 | 44.5 | 45.3 |
LLaMA2 - Chat (13B) | 38.1 | 26.3 | 29.1 | 33.1 | 32.0 | 52.1 | 66.0 | 36.3 |
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。



