モデル概要
モデル特徴
モデル能力
使用事例
🚀 Jais-13b
これは、アラビア語と英語の両方に対応した、130億のパラメータを持つ事前学習済みのバイリンガル大規模言語モデルです。720億のアラビア語トークンと2790億の英語/コードトークンを含むデータセットで学習されています。アラビア語データは1.6エポック(英語/コードは1エポック)で反復学習され、合計3950億トークンの学習が行われまし。
このモデルは、Transformerベースのデコーダー専用(GPT - 3)アーキテクチャに基づいており、SwiGLU非線形性を使用しています。ALiBi位置埋め込みを実装しており、長いシーケンス長への拡張を可能にし、コンテキスト処理とモデルの精度を向上させています。
🚀 クイックスタート
以下は、このモデルを使用するサンプルコードです。このモデルはカスタムモデルクラスを必要とするため、モデルをロードする際にtrust_remote_code=True
を有効にする必要があります。また、このコードはtransformers==4.28.0
でテストされています。
基本的な使用法
# -*- coding: utf-8 -*-
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "core42/jais-13b"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text,tokenizer=tokenizer,model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=200-input_len,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
✨ 主な機能
モデル詳細
属性 | 详情 |
---|---|
開発元 | Inception、Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)、および Cerebras Systems |
言語 (NLP) | アラビア語と英語 |
ライセンス | Apache 2.0 |
入力 | テキストデータのみ |
出力 | モデルがテキストを生成 |
論文 | Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models |
デモ | ここからアクセス |
想定される使用方法
Jais 13Bモデルは完全なオープンソースライセンスの下で公開されています。すべてのフィードバックと協力の機会を歓迎します。
このモデルは、Inception - MBZUAI - Cerebrasのパートナーシップによる最初のリリースであり、リリース時点で、付属の技術レポートに記載されている包括的なアラビア語テストスイート全体で最先端の性能を達成しました。いくつかの潜在的な下流の用途は以下の通りです。
- 研究: このモデルは、研究者や開発者によって使用できます。
- 商用利用: 特定のユースケースに合わせてさらにファインチューニングするためのベースモデルとして使用できます([jais - 13b - chat](https://huggingface.co/inception - mbzuai/jais - 13b - chat)と同様)。いくつかの潜在的なユースケースは以下の通りです。
- チャットアシスタント。
- カスタマーサービス。
このモデルから恩恵を受けることを期待している対象者は以下の通りです。
- 学者: アラビア語の自然言語処理を研究している人。
- 企業: アラビア語圏の顧客を対象とする企業。
- 開発者: アプリにアラビア語機能を組み込む人。
想定外の使用方法
Jais - 13bは強力なアラビア語と英語のバイリンガルモデルですが、その制限と誤用の可能性を理解することが重要です。適用される法律や規制に違反する方法でモデルを使用することは禁止されています。以下は、モデルを使用すべきではないいくつかのシナリオの例です。
- 悪意のある使用: モデルは、有害、誤解を招く、または不適切なコンテンツを生成するために使用してはいけません。これには、以下が含まれますが、これらに限定されません。
- 憎悪発言、暴力、または差別を生成または宣伝すること。
- 誤情報や偽ニュースを拡散すること。
- 違法行為に関与または宣伝すること。
- 機密情報: モデルは、個人情報、機密情報、または敏感な情報を扱うまたは生成するために使用してはいけません。
- すべての言語への汎化: Jais - 13bはバイリンガルであり、アラビア語と英語に最適化されているため、他の言語や方言でも同等の能力を持つと想定してはいけません。
- 重要な決定: モデルは、人間の監督なしで重要な決定を行うために使用してはいけません。これには、医療、法律、金融、または安全上重要な決定が含まれます。
バイアス、リスク、および制限
このモデルは、Inceptionによって一部が選別された公開データで学習されています。モデルのバイアスを減らすためにさまざまな手法を採用しています。バイアスを最小限に抑えるための努力が行われていますが、他のすべての大規模言語モデルと同様に、このモデルにもいくつかのバイアスが存在する可能性があります。
このモデルは、アラビア語と英語の話者向けのAIアシスタントとして学習されています。このモデルは、これら2つの言語のクエリに対する応答を生成することに限定されており、他の言語のクエリに対して適切な応答を生成しない可能性があります。
Jaisを使用することにより、他の大規模言語モデルと同様に、このモデルが誤った、誤解を招く、または不快な情報やコンテンツを生成する可能性があることを承認し、受け入れるものとします。この情報はアドバイスとして意図されておらず、いかなる形でも信頼すべきではなく、その使用によって生じるコンテンツや結果について私たちは責任を負いません。私たちは、より高い能力を持つモデルを開発するために継続的に取り組んでおり、このモデルに関するすべてのフィードバックを歓迎します。
Copyright Inception Institute of Artificial Intelligence Ltd. JAISはApache License, Version 2.0(「ライセンス」)の下で利用可能になっています。ライセンスに準拠しない限り、JAISを使用してはなりません。ライセンスのコピーは、https://www.apache.org/licenses/LICENSE - 2.0 で入手できます。
適用される法律によって必要とされる場合、または書面で合意されない限り、JAISは現状のまま配布され、明示的または黙示的ないかなる保証や条件も付いていません。ライセンスの具体的な言語の許可と制限については、ライセンスの条項を参照してください。
学習詳細
学習データ
Jais - 13bの事前学習には、Webや他のソースから収集された多様なバイリンガルコーパスを使用しました。また、公開されている英語とコードのデータセットも使用しました。アラビア語データを収集するために、ウェブページ、ウィキペディア記事、ニュース記事、アラビア語の本、およびソーシャルネットワークのコンテンツなど、複数のソースを使用しました。自社の機械翻訳システムを使用して英語をアラビア語に翻訳することで、アラビア語データの量を増やしました。これは、英語のウィキペディアや英語の本などの高品質の英語リソースに限定しています。学習データの詳細については、技術レポートを参照してください。
学習手順
学習は、Condor Galaxy 1(CG - 1)スーパーコンピュータプラットフォームで行われました。
学習ハイパーパラメータ
ハイパーパラメータ | 値 |
---|---|
精度 | fp32 |
オプティマイザ | AdamW |
学習率 | 0から0.012(<= 95ステップ) 0.012から0.0012(> 95ステップ) |
重み減衰 | 0.1 |
バッチサイズ | 1920 |
ステップ数 | 100551 |
評価
Jaisの包括的な評価を行い、他の主要なベース言語モデルとのベンチマークを行いました。評価は英語とアラビア語の両方に焦点を当てて行われ、評価基準は以下の様々な次元に及んでいます。
- 知識: モデルが事実関係の質問にどれだけうまく答えるか。
- 推論: 推論を必要とする質問に答えるモデルの能力。
- 誤情報/バイアス: モデルが誤ったまたは誤解を招く情報を生成する可能性と、その中立性の評価。
アラビア語の評価結果:
モデル | 平均 | 試験 | MMLU (M) | LitQA | Hellaswag | PIQA | BoolQA | SituatedQA | ARC - C | OpenBookQA | TruthfulQA | CrowS - Pairs |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Jais (13B) | 46.5 | 40.4 | 30.0 | 58.3 | 57.7 | 67.6 | 62.6 | 42.5 | 35.8 | 32.4 | 41.1 | 58.4 |
BLOOM (7.1B) | 40.9 | 34.0 | 28.2 | 37.1 | 40.9 | 58.4 | 59.9 | 39.1 | 27.3 | 28.0 | 44.4 | 53.5 |
LLaMA2 (13B) | 38.1 | 29.2 | 28.4 | 32.0 | 34.3 | 52.9 | 63.8 | 36.4 | 24.3 | 30.0 | 45.5 | 49.9 |
AraT5 (220M) | 32.0 | 24.7 | 23.8 | 26.3 | 25.5 | 50.4 | 58.2 | 33.9 | 24.7 | 25.4 | 20.9 | 47.2 |
AraBART (139M) | 36.7 | 26.5 | 27.5 | 34.3 | 28.1 | 52.6 | 57.1 | 34.6 | 25.1 | 28.6 | 49.8 | 48.8 |
上記のすべてのタスクは、精度またはF1スコアを報告しています(数値が高いほど良い)。簡潔にするために、英語のタスクに関する結果は含めていません。両言語の詳細な比較と評価データセットの詳細については、技術レポートを参照してください。
引用
@misc{sengupta2023jais,
title={Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models},
author={Neha Sengupta and Sunil Kumar Sahu and Bokang Jia and Satheesh Katipomu and Haonan Li and Fajri Koto and Osama Mohammed Afzal and Samta Kamboj and Onkar Pandit and Rahul Pal and Lalit Pradhan and Zain Muhammad Mujahid and Massa Baali and Alham Fikri Aji and Zhengzhong Liu and Andy Hock and Andrew Feldman and Jonathan Lee and Andrew Jackson and Preslav Nakov and Timothy Baldwin and Eric Xing},
year={2023},
eprint={2308.16149},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Copyright Inception Institute of Artificial Intelligence Ltd.



