モデル概要
モデル特徴
モデル能力
使用事例
🚀 Jais-30b-v1
このモデルは、アラビア語と英語の両方に対応した300億パラメータの事前学習済みのバイリンガル大規模言語モデルです。1260億のアラビア語トークン、2510億の英語トークン、および500億のコードトークンを含むデータセットで学習されています。
🚀 クイックスタート
以下は、このモデルを使用するサンプルコードです。このモデルはカスタムモデルクラスを必要とするため、モデルを読み込む際には trust_remote_code=True
を有効にする必要があります。また、このコードは transformers==4.32.0
でテストされています。
基本的な使用法
# -*- coding: utf-8 -*-
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "core42/jais-30b-v1"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text,tokenizer=tokenizer,model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=200,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
✨ 主な機能
このモデルは、以前にリリースされた Jais-13b と同様に、Transformerベースのデコーダー専用(GPT-3)アーキテクチャに基づいており、SwiGLU非線形性を使用しています。また、ALiBi位置埋め込みを実装しており、長いシーケンス長に対応でき、コンテキストの処理とモデルの精度が向上しています。
📚 ドキュメント
モデルの詳細
属性 | 詳情 |
---|---|
開発者 | Core42 (Inception)、Cerebras Systems |
言語 | アラビア語と英語 |
ライセンス | Apache 2.0 |
入力 | テキストデータのみ |
出力 | モデルがテキストを生成 |
論文 | Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models |
ブログ | こちらからアクセス |
デモ | こちらからアクセス |
想定される使用方法
Core42からの Jais-13b の次のリリースであるJais 30Bモデルは、完全なオープンソースライセンスの下でリリースされています。すべてのフィードバックと協力の機会を歓迎します。
このモデルの潜在的な下流の使用法には、以下のようなものがあります。
- 研究:研究者や開発者が使用できます。
- 商用利用:特定のユースケースに合わせてさらにファインチューニングするためのベースモデルとして使用できます(jais-13b-chat と同様)。潜在的なユースケースには、チャットアシスタントやカスタマーサービスなどがあります。
このモデルから恩恵を受けることを期待している対象者は、以下の通りです。
- 学者:アラビア語の自然言語処理を研究する人。
- 企業:アラビア語圏をターゲットとする企業。
- 開発者:アプリにアラビア語機能を統合する人。
想定外の使用方法
Jais-30bは強力なアラビア語と英語のバイリンガルモデルですが、その限界と誤用の可能性を理解することが重要です。適用される法律や規制に違反する方法でモデルを使用することは禁止されています。以下は、モデルを使用すべきでないシナリオの例です。
- 悪意のある使用:有害、誤解を招く、または不適切なコンテンツを生成するためにモデルを使用してはいけません。これには、ヘイトスピーチ、暴力、または差別の生成や促進、誤情報や偽ニュースの拡散、違法行為の関与や促進などが含まれます。
- 機密情報:個人情報、機密情報、または敏感な情報を処理または生成するためにモデルを使用してはいけません。
- すべての言語への汎化:Jais-30bはバイリンガルであり、アラビア語と英語に最適化されているため、他の言語や方言でも同等の能力を持っていると想定してはいけません。
- 重要な決定:人間の監視なしで重要な決定(医療、法律、金融、または安全上重要な決定など)を行うためにモデルを使用してはいけません。
バイアス、リスク、および制限
このモデルは、Inceptionによって一部が選り分けられた公開データで学習されています。モデルのバイアスを減らすためにさまざまな手法を採用していますが、すべてのLLMモデルと同様に、このモデルにもいくらかのバイアスが存在する可能性があります。
このモデルは、アラビア語と英語の話者向けのAIアシスタントとして学習されています。このモデルは、これら2つの言語のクエリに対する応答を生成することに限定されており、他の言語のクエリに対して適切な応答を生成できない場合があります。
Jaisを使用することにより、他の大規模言語モデルと同様に、このモデルが誤った、誤解を招く、または不快な情報やコンテンツを生成する可能性があることを認識し、受け入れるものとします。この情報はアドバイスとして意図されておらず、いかなる形でも信頼すべきではありません。また、このモデルの使用によって生じるコンテンツや結果について、当社は一切の責任を負いません。当社は、より高い能力を持つモデルの開発に継続的に取り組んでおり、このモデルに関するフィードバックを歓迎します。
学習の詳細
学習データ
Jais-30bの事前学習には、Webやその他のソースから収集された多様なバイリンガルコーパスを使用しました。また、公開されている英語とコードのデータセットも使用しました。アラビア語のデータを収集するために、ウェブページ、ウィキペディアの記事、ニュース記事、アラビア語の本、およびソーシャルネットワークのコンテンツなど、複数のソースを使用しました。社内の機械翻訳システムを使用して英語をアラビア語に翻訳することで、アラビア語データの量を増やしました。これは、英語のウィキペディアや英語の本などの高品質の英語リソースに限定して行いました。データ収集戦略は、Jais-13b で述べられているものと同様です。
学習手順
学習は、Condor Galaxy 1 (CG-1) スーパーコンピュータプラットフォーム上で行われました。
学習ハイパーパラメータ
ハイパーパラメータ | 値 |
---|---|
精度 | fp32 |
オプティマイザ | AdamW |
学習率 | 0から0.012(<= 69ステップ) 0.012から0.005(> 69 & < 70kステップ) 0.005から0.0008(>70k - 79k) |
重み減衰 | 0.1 |
バッチサイズ | 2640 |
ステップ数 | 79k |
評価
Jaisの包括的な評価を行い、他の主要なベース言語モデルとのベンチマークを行いました。評価は英語とアラビア語の両方に焦点を当てて行われ、評価基準は以下のような様々な次元に及びました。
- 知識:モデルが事実に基づく質問にどれだけうまく答えるか。
- 推論:推論を必要とする質問に答えるモデルの能力。
- 誤情報/バイアス:モデルが誤ったまたは誤解を招く情報を生成する傾向と、中立性の評価。
アラビア語の評価結果
モデル | 平均 | 試験 | MMLU (M) | 文学QA | Hellaswag | PIQA | BoolQA | SituatedQA | ARC-C | OpenBookQA | TruthfulQA | CrowS-Pairs |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Jais (30B) | 47.8 | 40 | 30.8 | 58.3 | 60.1 | 70 | 68.7 | 43.3 | 38.5 | 32.2 | 42.6 | 56.9 |
Jais (13B) | 46.5 | 40.4 | 30.0 | 58.3 | 57.7 | 67.6 | 62.6 | 42.5 | 35.8 | 32.4 | 41.1 | 58.4 |
acegpt-13b | 42.5 | 34.7 | 29.9 | 42.3 | 45.6 | 60.3 | 63.2 | 38.1 | 32.8 | 32.2 | 45.1 | 56.4 |
acegpt-7b | 42.4 | 35.4 | 29 | 46.3 | 43.8 | 60.4 | 63.4 | 37.2 | 31.1 | 32 | 45.3 | 55.4 |
BLOOM (7.1B) | 40.9 | 34.0 | 28.2 | 37.1 | 40.9 | 58.4 | 59.9 | 39.1 | 27.3 | 28.0 | 44.4 | 53.5 |
LLaMA (30B) | 38.8 | 27.9 | 28.5 | 32.6 | 35 | 52.7 | 63.7 | 34.9 | 25.7 | 28.6 | 47.2 | 49.8 |
LLaMA2 (13B) | 38.1 | 29.2 | 28.4 | 32.0 | 34.3 | 52.9 | 63.8 | 36.4 | 24.3 | 30.0 | 45.5 | 49.9 |
英語の評価結果
モデル | 平均 | MMLU | RACE | Hellaswag | PIQA | BoolQA | SituatedQA | ARC-C | OpenBookQA | Winogrande | TruthfulQA | CrowS-Pairs |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Jais (30B) | 56.2 | 34.5 | 39.8 | 75.1 | 79.5 | 74.3 | 49.9 | 45.9 | 41.2 | 68.4 | 36.5 | 73.3 |
Jais (13B) | 53.9 | 31.5 | 38.3 | 71.8 | 77.9 | 67.6 | 48.2 | 41.9 | 40.6 | 68.4 | 35.4 | 71.5 |
OPT-30b | 59.4 | 38.6 | 45.2 | 71.7 | 78.5 | 87.3 | 63.4 | 44.8 | 40.2 | 72.2 | 38.7 | 72.7 |
MPT-30b | 57.3 | 38.8 | 39.7 | 80 | 80.8 | 73.9 | 45.6 | 49.2 | 43.2 | 71.1 | 38.3 | 69.3 |
Llama-30b | 55.4 | 37 | 40.2 | 79.2 | 80.1 | 68.3 | 44 | 45.3 | 42 | 72.7 | 42.3 | 58.2 |
Falcon (40B) | 54.8 | 31.3 | 37.1 | 76.4 | 80.5 | 73.7 | 43.2 | 43.6 | 44.2 | 67.2 | 34.3 | 72.3 |
📄 ライセンス
Copyright Inception Institute of Artificial Intelligence Ltd. JAISはApache License, Version 2.0(「ライセンス」)の下で利用可能です。ライセンスに準拠しない限り、JAISを使用してはなりません。ライセンスのコピーは、こちら から入手できます。
引用
@misc{sengupta2023jais,
title={Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models},
author={Neha Sengupta and Sunil Kumar Sahu and Bokang Jia and Satheesh Katipomu and Haonan Li and Fajri Koto and Osama Mohammed Afzal and Samta Kamboj and Onkar Pandit and Rahul Pal and Lalit Pradhan and Zain Muhammad Mujahid and Massa Baali and Alham Fikri Aji and Zhengzhong Liu and Andy Hock and Andrew Feldman and Jonathan Lee and Andrew Jackson and Preslav Nakov and Timothy Baldwin and Eric Xing},
year={2023},
eprint={2308.16149},
archivePrefix={arXiv},
primaryClass={cs.CL}
}



