模型概述
模型特點
模型能力
使用案例
🚀 Jais-13b
Jais-13b 是一款擁有 130 億參數的預訓練雙語大語言模型,支持阿拉伯語和英語。它在包含 720 億阿拉伯語標記和 2790 億英語/代碼標記的數據集上進行訓練,能夠有效處理和生成這兩種語言的文本內容,為相關領域的研究和應用提供了強大支持。
🚀 快速開始
以下是使用該模型的示例代碼。請注意,該模型需要自定義模型類,因此用戶在加載模型時必須啟用 trust_remote_code=True
。此外,此代碼在 transformers==4.28.0
版本上進行了測試。
# -*- coding: utf-8 -*-
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "core42/jais-13b"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text,tokenizer=tokenizer,model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=200-input_len,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
✨ 主要特性
- 基於Transformer的僅解碼器(GPT - 3)架構,使用SwiGLU非線性激活函數。
- 實現了ALiBi位置嵌入,能夠外推到長序列長度,提升上下文處理能力和模型精度。
- 在阿拉伯語和英語雙語處理上表現出色,在綜合阿拉伯語測試套件中達到了當前最優水平。
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
開發者 | Inception、穆罕默德·本·扎耶德人工智能大學 (MBZUAI) 和 Cerebras Systems |
支持語言 (NLP) | 阿拉伯語和英語 |
許可證 | Apache 2.0 |
輸入 | 僅文本數據 |
輸出 | 模型生成文本 |
論文 | Jais and Jais - chat: Arabic - Centric Foundation and Instruction - Tuned Open Generative Large Language Models |
演示 | 點擊訪問 |
預期用途
我們以完全開源的許可證發佈 Jais 13B 模型,歡迎所有反饋和合作機會。該模型是 Inception - MBZUAI - Cerebras 合作項目的首次發佈,在發佈時,在隨附的技術報告中描述的綜合阿拉伯語測試套件中達到了當前最優水平。一些潛在的下游用途包括:
- 研究:可供研究人員和開發者使用。
- 商業用途:可作為基礎模型,針對特定用例進行進一步微調(類似於 [jais - 13b - chat](https://huggingface.co/inception - mbzuai/jais - 13b - chat))。一些潛在用例包括:
- 聊天助手。
- 客戶服務。
我們希望以下受眾能從我們的模型中受益:
- 學術界:從事阿拉伯語自然語言處理研究的人員。
- 企業:針對阿拉伯語受眾的公司。
- 開發者:在應用程序中集成阿拉伯語能力的人員。
非預期用途
雖然 Jais - 13b 是一款強大的阿拉伯語和英語雙語模型,但必須瞭解其侷限性和潛在的濫用情況。禁止以任何違反適用法律法規的方式使用該模型。以下是一些不應使用該模型的示例場景:
- 惡意使用:不得用於生成有害、誤導性或不適當的內容。這包括但不限於:
- 生成或宣傳仇恨言論、暴力或歧視性內容。
- 傳播錯誤信息或虛假新聞。
- 從事或宣傳非法活動。
- 敏感信息處理:不得用於處理或生成個人、機密或敏感信息。
- 跨語言泛化:Jais - 13b 是雙語模型,針對阿拉伯語和英語進行了優化,不應假定其在其他語言或方言上具有同等水平的能力。
- 高風險決策:在沒有人工監督的情況下,不得用於做出高風險決策。這包括醫療、法律、金融或安全關鍵決策。
偏差、風險和侷限性
該模型在公開可用的數據上進行訓練,部分數據由 Inception 整理。我們採用了不同的技術來減少模型中的偏差。儘管已努力將偏差降至最低,但與所有大語言模型一樣,該模型可能仍會表現出一定的偏差。
該模型是為阿拉伯語和英語使用者訓練的 AI 助手,僅限於為這兩種語言的查詢生成響應,對於其他語言的查詢可能無法生成合適的響應。
使用 Jais 即表示您承認並接受,與任何大語言模型一樣,它可能會生成不正確、誤導性和/或冒犯性的信息或內容。這些信息並非建議,不應以任何方式依賴,我們也不對其使用產生的任何內容或後果負責。我們正在不斷努力開發功能更強大的模型,因此歡迎對該模型提供任何反饋。
版權歸 Inception Institute of Artificial Intelligence Ltd. 所有。JAIS 根據 Apache 許可證,版本 2.0(“許可證”)提供。除非符合許可證規定,否則不得使用 JAIS。您可以在 https://www.apache.org/licenses/LICENSE - 2.0 獲得許可證副本。
除非適用法律要求或書面同意,否則 JAIS 按“原樣”分發,不提供任何形式的明示或暗示保證或條件。請參閱許可證條款,瞭解許可證下的具體語言權限和限制。
訓練詳情
訓練數據
在對 Jais - 13b 進行預訓練時,我們使用了來自網絡和其他來源的多樣化雙語語料庫,同時也使用了公開可用的英語和代碼數據集。為了收集阿拉伯語數據,我們使用了多個來源,包括網頁、維基百科文章、新聞文章、阿拉伯語書籍和社交網絡內容。我們通過內部機器翻譯系統將英語翻譯成阿拉伯語,以增加阿拉伯語數據的數量。我們將此操作限制在高質量的英語資源上,如英語維基百科和英語書籍。有關訓練數據的更多詳細信息可在技術報告中找到。
訓練過程
訓練在 Condor Galaxy 1 (CG - 1) 超級計算機平臺上進行。
訓練超參數
超參數 | 值 |
---|---|
精度 | fp32 |
優化器 | AdamW |
學習率 | 0 到 0.012(<= 95 步) 0.012 到 0.0012(> 95 步) |
權重衰減 | 0.1 |
批量大小 | 1920 |
步數 | 100551 |
評估
我們對 Jais 進行了全面評估,並將其與其他領先的基礎語言模型進行了基準測試,重點關注英語和阿拉伯語。評估標準涵蓋了多個維度,包括:
- 知識:模型回答事實性問題的能力。
- 推理:模型回答需要推理的問題的能力。
- 錯誤信息/偏差:評估模型生成虛假或誤導性信息的可能性以及其中立性。
阿拉伯語評估結果:
模型 | 平均得分 | 考試 | MMLU (M) | LitQA | Hellaswag | PIQA | BoolQA | SituatedQA | ARC - C | OpenBookQA | TruthfulQA | CrowS - Pairs |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Jais (13B) | 46.5 | 40.4 | 30.0 | 58.3 | 57.7 | 67.6 | 62.6 | 42.5 | 35.8 | 32.4 | 41.1 | 58.4 |
BLOOM (7.1B) | 40.9 | 34.0 | 28.2 | 37.1 | 40.9 | 58.4 | 59.9 | 39.1 | 27.3 | 28.0 | 44.4 | 53.5 |
LLaMA2 (13B) | 38.1 | 29.2 | 28.4 | 32.0 | 34.3 | 52.9 | 63.8 | 36.4 | 24.3 | 30.0 | 45.5 | 49.9 |
AraT5 (220M) | 32.0 | 24.7 | 23.8 | 26.3 | 25.5 | 50.4 | 58.2 | 33.9 | 24.7 | 25.4 | 20.9 | 47.2 |
AraBART (139M) | 36.7 | 26.5 | 27.5 | 34.3 | 28.1 | 52.6 | 57.1 | 34.6 | 25.1 | 28.6 | 49.8 | 48.8 |
以上所有任務均報告準確率或 F1 分數(越高越好)。為簡潔起見,我們未包含英語任務的結果。兩種語言的詳細比較和評估數據集詳情可在技術報告中找到。
📄 許可證
本項目採用 Apache 2.0 許可證。版權歸 Inception Institute of Artificial Intelligence Ltd. 所有。
📚 引用
@misc{sengupta2023jais,
title={Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models},
author={Neha Sengupta and Sunil Kumar Sahu and Bokang Jia and Satheesh Katipomu and Haonan Li and Fajri Koto and Osama Mohammed Afzal and Samta Kamboj and Onkar Pandit and Rahul Pal and Lalit Pradhan and Zain Muhammad Mujahid and Massa Baali and Alham Fikri Aji and Zhengzhong Liu and Andy Hock and Andrew Feldman and Jonathan Lee and Andrew Jackson and Preslav Nakov and Timothy Baldwin and Eric Xing},
year={2023},
eprint={2308.16149},
archivePrefix={arXiv},
primaryClass={cs.CL}
}



