JAIS-13Bオープンソースバイリンガル大規模言語モデル - アラビア語と英語の会話アプリケーションをサポートする無料デプロイ

ホーム

Jais 13b

inceptionaiによって開発

JAIS-13Bは130億パラメータのバイリンガル（アラビア語と英語）事前学習済み大規模言語モデルで、GPT-3アーキテクチャに基づき、アラビア語と英語に最適化されています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #アラビア語-英語バイリンガル #ALiBi長文処理 #アラビア語NLP最適化

ダウンロード数 1,051

リリース時間 : 8/17/2023

モデル概要

JAIS-13Bは強力なアラビア語-英語バイリンガル大規模言語モデルで、Transformerアーキテクチャを採用し、テキスト生成タスクをサポートします。このモデルはアラビア語処理において当時の最先端レベルを達成し、研究や商業用途に適しています。

モデル特徴

バイリンガル能力

アラビア語と英語に最適化されており、アラビア語処理で優れた性能を発揮

長文処理

ALiBi位置埋め込み技術を採用し、長文の外挿処理をサポート

オープンソースライセンス

Apache 2.0ライセンスで公開され、研究や商業用途が可能

モデル能力

アラビア語テキスト生成

英語テキスト生成

コード生成

質問応答システム

チャットボット

使用事例

研究用途

アラビア語NLP研究

アラビア語自然言語処理研究に使用

商業応用

カスタマーサービス

特定のシナリオに合わせてファインチューニングされた基本モデルとして、カスタマーサービスに使用

チャットアシスタント

アラビア語ユーザー向けのチャットアシスタント開発

🚀 Jais-13b

これは、アラビア語と英語の両方に対応した、130億のパラメータを持つ事前学習済みのバイリンガル大規模言語モデルです。720億のアラビア語トークンと2790億の英語/コードトークンを含むデータセットで学習されています。アラビア語データは1.6エポック（英語/コードは1エポック）で反復学習され、合計3950億トークンの学習が行われまし。

このモデルは、Transformerベースのデコーダー専用（GPT - 3）アーキテクチャに基づいており、SwiGLU非線形性を使用しています。ALiBi位置埋め込みを実装しており、長いシーケンス長への拡張を可能にし、コンテキスト処理とモデルの精度を向上させています。

🚀 クイックスタート

以下は、このモデルを使用するサンプルコードです。このモデルはカスタムモデルクラスを必要とするため、モデルをロードする際にtrust_remote_code=Trueを有効にする必要があります。また、このコードはtransformers==4.28.0でテストされています。

基本的な使用法

# -*- coding: utf-8 -*-

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "core42/jais-13b"

device = "cuda" if torch.cuda.is_available() else "cpu"

tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)


def get_response(text,tokenizer=tokenizer,model=model):
    input_ids = tokenizer(text, return_tensors="pt").input_ids
    inputs = input_ids.to(device)
    input_len = inputs.shape[-1]
    generate_ids = model.generate(
        inputs,
        top_p=0.9,
        temperature=0.3,
        max_length=200-input_len,
        min_length=input_len + 4,
        repetition_penalty=1.2,
        do_sample=True,
    )
    response = tokenizer.batch_decode(
        generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
    )[0]
    return response


text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))

text = "The capital of UAE is"
print(get_response(text))

✨ 主な機能

モデル詳細

属性	详情
開発元	Inception、Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)、および Cerebras Systems
言語 (NLP)	アラビア語と英語
ライセンス	Apache 2.0
入力	テキストデータのみ
出力	モデルがテキストを生成
論文	Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models
デモ	ここからアクセス

想定される使用方法

Jais 13Bモデルは完全なオープンソースライセンスの下で公開されています。すべてのフィードバックと協力の機会を歓迎します。

このモデルは、Inception - MBZUAI - Cerebrasのパートナーシップによる最初のリリースであり、リリース時点で、付属の技術レポートに記載されている包括的なアラビア語テストスイート全体で最先端の性能を達成しました。いくつかの潜在的な下流の用途は以下の通りです。

研究: このモデルは、研究者や開発者によって使用できます。
商用利用: 特定のユースケースに合わせてさらにファインチューニングするためのベースモデルとして使用できます（[jais - 13b - chat](https://huggingface.co/inception - mbzuai/jais - 13b - chat)と同様）。いくつかの潜在的なユースケースは以下の通りです。
- チャットアシスタント。
- カスタマーサービス。

このモデルから恩恵を受けることを期待している対象者は以下の通りです。

学者: アラビア語の自然言語処理を研究している人。
企業: アラビア語圏の顧客を対象とする企業。
開発者: アプリにアラビア語機能を組み込む人。

想定外の使用方法

Jais - 13bは強力なアラビア語と英語のバイリンガルモデルですが、その制限と誤用の可能性を理解することが重要です。適用される法律や規制に違反する方法でモデルを使用することは禁止されています。以下は、モデルを使用すべきではないいくつかのシナリオの例です。

悪意のある使用: モデルは、有害、誤解を招く、または不適切なコンテンツを生成するために使用してはいけません。これには、以下が含まれますが、これらに限定されません。
- 憎悪発言、暴力、または差別を生成または宣伝すること。
- 誤情報や偽ニュースを拡散すること。
- 違法行為に関与または宣伝すること。
機密情報: モデルは、個人情報、機密情報、または敏感な情報を扱うまたは生成するために使用してはいけません。
すべての言語への汎化: Jais - 13bはバイリンガルであり、アラビア語と英語に最適化されているため、他の言語や方言でも同等の能力を持つと想定してはいけません。
重要な決定: モデルは、人間の監督なしで重要な決定を行うために使用してはいけません。これには、医療、法律、金融、または安全上重要な決定が含まれます。

バイアス、リスク、および制限

このモデルは、Inceptionによって一部が選別された公開データで学習されています。モデルのバイアスを減らすためにさまざまな手法を採用しています。バイアスを最小限に抑えるための努力が行われていますが、他のすべての大規模言語モデルと同様に、このモデルにもいくつかのバイアスが存在する可能性があります。

このモデルは、アラビア語と英語の話者向けのAIアシスタントとして学習されています。このモデルは、これら2つの言語のクエリに対する応答を生成することに限定されており、他の言語のクエリに対して適切な応答を生成しない可能性があります。

Jaisを使用することにより、他の大規模言語モデルと同様に、このモデルが誤った、誤解を招く、または不快な情報やコンテンツを生成する可能性があることを承認し、受け入れるものとします。この情報はアドバイスとして意図されておらず、いかなる形でも信頼すべきではなく、その使用によって生じるコンテンツや結果について私たちは責任を負いません。私たちは、より高い能力を持つモデルを開発するために継続的に取り組んでおり、このモデルに関するすべてのフィードバックを歓迎します。

Copyright Inception Institute of Artificial Intelligence Ltd. JAISはApache License, Version 2.0（「ライセンス」）の下で利用可能になっています。ライセンスに準拠しない限り、JAISを使用してはなりません。ライセンスのコピーは、https://www.apache.org/licenses/LICENSE - 2.0 で入手できます。

適用される法律によって必要とされる場合、または書面で合意されない限り、JAISは現状のまま配布され、明示的または黙示的ないかなる保証や条件も付いていません。ライセンスの具体的な言語の許可と制限については、ライセンスの条項を参照してください。

学習詳細

学習データ

Jais - 13bの事前学習には、Webや他のソースから収集された多様なバイリンガルコーパスを使用しました。また、公開されている英語とコードのデータセットも使用しました。アラビア語データを収集するために、ウェブページ、ウィキペディア記事、ニュース記事、アラビア語の本、およびソーシャルネットワークのコンテンツなど、複数のソースを使用しました。自社の機械翻訳システムを使用して英語をアラビア語に翻訳することで、アラビア語データの量を増やしました。これは、英語のウィキペディアや英語の本などの高品質の英語リソースに限定しています。学習データの詳細については、技術レポートを参照してください。

学習手順

学習は、Condor Galaxy 1（CG - 1）スーパーコンピュータプラットフォームで行われました。

学習ハイパーパラメータ

ハイパーパラメータ	値
精度	fp32
オプティマイザ	AdamW
学習率	0から0.012（<= 95ステップ） 0.012から0.0012（> 95ステップ）
重み減衰	0.1
バッチサイズ	1920
ステップ数	100551

評価

Jaisの包括的な評価を行い、他の主要なベース言語モデルとのベンチマークを行いました。評価は英語とアラビア語の両方に焦点を当てて行われ、評価基準は以下の様々な次元に及んでいます。

知識: モデルが事実関係の質問にどれだけうまく答えるか。
推論: 推論を必要とする質問に答えるモデルの能力。
誤情報/バイアス: モデルが誤ったまたは誤解を招く情報を生成する可能性と、その中立性の評価。

アラビア語の評価結果:

モデル	平均	試験	MMLU (M)	LitQA	Hellaswag	PIQA	BoolQA	SituatedQA	ARC - C	OpenBookQA	TruthfulQA	CrowS - Pairs
Jais (13B)	46.5	40.4	30.0	58.3	57.7	67.6	62.6	42.5	35.8	32.4	41.1	58.4
BLOOM (7.1B)	40.9	34.0	28.2	37.1	40.9	58.4	59.9	39.1	27.3	28.0	44.4	53.5
LLaMA2 (13B)	38.1	29.2	28.4	32.0	34.3	52.9	63.8	36.4	24.3	30.0	45.5	49.9
AraT5 (220M)	32.0	24.7	23.8	26.3	25.5	50.4	58.2	33.9	24.7	25.4	20.9	47.2
AraBART (139M)	36.7	26.5	27.5	34.3	28.1	52.6	57.1	34.6	25.1	28.6	49.8	48.8

上記のすべてのタスクは、精度またはF1スコアを報告しています（数値が高いほど良い）。簡潔にするために、英語のタスクに関する結果は含めていません。両言語の詳細な比較と評価データセットの詳細については、技術レポートを参照してください。

引用

@misc{sengupta2023jais,
      title={Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models}, 
      author={Neha Sengupta and Sunil Kumar Sahu and Bokang Jia and Satheesh Katipomu and Haonan Li and Fajri Koto and Osama Mohammed Afzal and Samta Kamboj and Onkar Pandit and Rahul Pal and Lalit Pradhan and Zain Muhammad Mujahid and Massa Baali and Alham Fikri Aji and Zhengzhong Liu and Andy Hock and Andrew Feldman and Jonathan Lee and Andrew Jackson and Preslav Nakov and Timothy Baldwin and Eric Xing},
      year={2023},
      eprint={2308.16149},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}