🚀 Jais-13b
このモデルは、アラビア語と英語の両方に対応した130億パラメータの事前学習型バイリンガル大規模言語モデルです。720億のアラビア語トークンと2790億の英語/コードトークンを含むデータセットで学習されています。アラビア語データは1.6エポック(英語/コードは1エポック)で反復学習され、合計3950億トークンの学習が行われまし。
🚀 クイックスタート
以下は、このモデルを使用するサンプルコードです。このモデルはカスタムモデルクラスを必要とするため、モデルを読み込む際にtrust_remote_code=True
を有効にする必要があります。また、このコードはtransformers==4.28.0
でテストされています。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "asas-ai/jais_13B_8bit"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text,tokenizer=tokenizer,model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=200-input_len,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
✨ 主な機能
このモデルは、トランスフォーマーベースのデコーダー専用(GPT - 3)アーキテクチャに基づいており、SwiGLU非線形性を使用しています。ALiBi位置埋め込みを実装しており、長いシーケンス長への外挿が可能で、コンテキスト処理とモデルの精度が向上します。
📚 ドキュメント
モデルの詳細
想定される使用方法
当社は、Jais 13Bモデルを完全なオープンソースライセンスの下でリリースしています。すべてのフィードバックと協力の機会を歓迎します。
このモデルは、Inception - MBZUAI - Cerebrasのパートナーシップによる最初のリリースであり、リリース時点で、添付の技術レポートに記載されている包括的なアラビア語テストスイート全体で最先端の性能を達成しています。いくつかの潜在的な下流の用途は以下の通りです。
- 研究: このモデルは、研究者や開発者によって使用できます。
- 商用利用: 特定のユースケースに合わせてさらにファインチューニングするためのベースモデルとして使用できます([jais - 13b - chat](https://huggingface.co/inception - mbzuai/jais - 13b - chat)と同様)。いくつかの潜在的なユースケースは以下の通りです。
このモデルから恩恵を受けることを期待している対象者:
- 学者: アラビア語の自然言語処理を研究する人。
- 企業: アラビア語圏をターゲットとする企業。
- 開発者: アプリにアラビア語機能を組み込む人。
想定外の使用方法
Jais - 13bは強力なアラビア語と英語のバイリンガルモデルですが、その制限と誤用の可能性を理解することが重要です。適用される法律や規制に違反する方法でモデルを使用することは禁止されています。以下は、モデルを使用すべきでないいくつかのシナリオの例です。
-
悪意のある使用: モデルは、有害、誤解を招く、または不適切なコンテンツを生成するために使用してはいけません。これには以下が含まれますが、これらに限定されません。
- 憎悪発言、暴力、または差別を生成または宣伝すること。
- 誤情報や偽ニュースを拡散すること。
- 違法行為に関与または宣伝すること。
-
機密情報: モデルは、個人情報、機密情報、または敏感な情報を処理または生成するために使用してはいけません。
-
すべての言語への汎化: Jais - 13bはバイリンガルであり、アラビア語と英語に最適化されているため、他の言語や方言でも同等の能力を持つと想定してはいけません。
-
重要な決定: モデルは、人間の監視なしで重要な決定を行うために使用してはいけません。これには、医療、法律、金融、または安全上重要な決定が含まれます。
バイアス、リスク、および制限
このモデルは、Inceptionによって一部選り分けられた公開データで学習されています。モデルのバイアスを減らすためにさまざまな手法を採用しています。バイアスを最小限に抑えるための努力がなされていますが、他のすべての大規模言語モデルと同様に、このモデルにもいくつかのバイアスが存在する可能性があります。
このモデルは、アラビア語と英語の話者向けのAIアシスタントとして学習されています。このモデルは、これら2つの言語のクエリに対する応答を生成することに限定されており、他の言語のクエリに対して適切な応答を生成しない可能性があります。
Jaisを使用することにより、他の大規模言語モデルと同様に、このモデルが誤った、誤解を招く、および/または不快な情報やコンテンツを生成する可能性があることを承認し、受け入れるものとします。この情報はアドバイスとして意図されておらず、いかなる形でも信頼すべきではありません。また、その使用によって生じるコンテンツや結果について当社は一切の責任を負いません。当社は、より高い能力を持つモデルの開発に継続的に取り組んでおり、モデルに関するすべてのフィードバックを歓迎します。
学習の詳細
学習データ
Jais - 13bの事前学習には、Webや他のソースから収集した多様なバイリンガルコーパスを使用しました。また、公開されている英語とコードのデータセットも使用しました。アラビア語データを収集するために、Webページ、ウィキペディア記事、ニュース記事、アラビア語の本、およびソーシャルネットワークのコンテンツなど、複数のソースを使用しました。社内の機械翻訳システムを使用して英語をアラビア語に翻訳することで、アラビア語データの量を増やしています。これは、英語のウィキペディアや英語の本などの高品質な英語リソースに限定しています。学習データの詳細については、技術レポートを参照してください。
学習手順
学習は、Condor Galaxy 1(CG - 1)スーパーコンピュータプラットフォームで行われました。
学習ハイパーパラメータ
ハイパーパラメータ |
値 |
精度 |
fp32 |
オプティマイザー |
AdamW |
学習率 |
0から0.012(<= 95ステップ) 0.012から0.0012(> 95ステップ) |
重み減衰 |
0.1 |
バッチサイズ |
1920 |
ステップ数 |
100551 |
評価
Jaisの包括的な評価を行い、他の主要なベース言語モデルとのベンチマークを行いました。評価は英語とアラビア語の両方に焦点を当てており、評価基準は以下の様々な次元に及んでいます。
- 知識: モデルが事実に基づく質問にどれだけうまく答えるか。
- 推論: 推論を必要とする質問に答えるモデルの能力。
- 誤情報/バイアス: モデルが誤ったまたは誤解を招く情報を生成する可能性、およびその中立性の評価。
アラビア語の評価結果:
モデル |
平均 |
試験 |
MMLU (M) |
文学QA |
Hellaswag |
PIQA |
BoolQA |
SituatedQA |
ARC - C |
OpenBookQA |
TruthfulQA |
CrowS - Pairs |
Jais (13B) |
46.5 |
40.4 |
30.0 |
58.3 |
57.7 |
67.6 |
62.6 |
42.5 |
35.8 |
32.4 |
41.1 |
58.4 |
BLOOM (7.1B) |
40.9 |
34.0 |
28.2 |
37.1 |
40.9 |
58.4 |
59.9 |
39.1 |
27.3 |
28.0 |
44.4 |
53.5 |
LLaMA2 (13B) |
38.1 |
29.2 |
28.4 |
32.0 |
34.3 |
52.9 |
63.8 |
36.4 |
24.3 |
30.0 |
45.5 |
49.9 |
AraT5 (220M) |
32.0 |
24.7 |
23.8 |
26.3 |
25.5 |
50.4 |
58.2 |
33.9 |
24.7 |
25.4 |
20.9 |
47.2 |
AraBART (550M) |
36.7 |
26.5 |
27.5 |
34.3 |
28.1 |
52.6 |
57.1 |
34.6 |
25.1 |
28.6 |
49.8 |
48.8 |
上記のすべてのタスクは、精度またはF1スコアを報告しています(数値が高いほど良い)。簡潔にするために、英語のタスクに関する結果は含めていません。両言語における詳細な比較と評価データセットの詳細については、技術レポートを参照してください。
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
📚 引用
@misc{sengupta2023jais,
title={Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models},
author={Neha Sengupta and Sunil Kumar Sahu and Bokang Jia and Satheesh Katipomu and Haonan Li and Fajri Koto and Osama Mohammed Afzal and Samta Kamboj and Onkar Pandit and Rahul Pal and Lalit Pradhan and Zain Muhammad Mujahid and Massa Baali and Alham Fikri Aji and Zhengzhong Liu and Andy Hock and Andrew Feldman and Jonathan Lee and Andrew Jackson and Preslav Nakov and Timothy Baldwin and Eric Xing},
year={2023},
eprint={2308.16149},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Copyright Inception Institute of Artificial Intelligence Ltd.