模型概述
模型特點
模型能力
使用案例
🚀 Jais-30b-v1
Jais-30b-v1 是一款預訓練的雙語大語言模型,擁有 300 億參數,支持阿拉伯語和英語。它在包含 1260 億阿拉伯語標記、2510 億英語標記和 500 億代碼標記的數據集上進行訓練。該模型基於 Transformer 架構,採用僅解碼器(類似 GPT - 3)的結構,使用 SwiGLU 非線性激活函數和 ALiBi 位置嵌入,能夠處理長序列,提升上下文處理能力和模型精度。
🚀 快速開始
以下是使用該模型的示例代碼。請注意,該模型需要自定義模型類,因此用戶在加載模型時必須啟用 trust_remote_code=True
。此外,此代碼在 transformers==4.32.0
版本上進行了測試。
# -*- coding: utf-8 -*-
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "core42/jais-30b-v1"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text,tokenizer=tokenizer,model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=200,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
✨ 主要特性
- 雙語支持:支持阿拉伯語和英語兩種語言。
- 先進架構:基於 Transformer 架構的僅解碼器模型,使用 SwiGLU 非線性激活函數。
- 長序列處理:採用 ALiBi 位置嵌入,能夠處理長序列,提升上下文處理能力和模型精度。
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
開發者 | Core42(Inception)、Cerebras Systems |
語言 | 阿拉伯語和英語 |
許可證 | Apache 2.0 |
輸入 | 僅文本數據 |
輸出 | 模型生成文本 |
論文 | Jais and Jais - chat: Arabic - Centric Foundation and Instruction - Tuned Open Generative Large Language Models |
博客 | 點擊訪問 |
演示 | 點擊訪問 |
預期用途
我們以完全開源的許可證發佈 Jais 30B 模型,歡迎所有反饋和合作機會。這是 Core42 在 Jais - 13b 之後的第二次發佈,在發佈時,該模型在綜合阿拉伯語測試套件中達到了最先進水平。一些潛在的下游用途包括:
- 研究:可供研究人員和開發者使用。
- 商業用途:可作為基礎模型,針對特定用例進行進一步微調(類似於 jais - 13b - chat)。一些潛在用例包括:
- 聊天助手。
- 客戶服務。
我們希望受益於該模型的受眾包括:
- 學術界:從事阿拉伯語自然語言處理研究的人員。
- 企業:針對阿拉伯語受眾的公司。
- 開發者:在應用程序中集成阿拉伯語功能的人員。
非預期用途
雖然 Jais - 30b 是一款強大的阿拉伯語和英語雙語模型,但瞭解其侷限性和潛在的濫用情況至關重要。禁止以任何違反適用法律法規的方式使用該模型。以下是一些不應使用該模型的示例場景:
- 惡意使用:不得使用該模型生成有害、誤導性或不適當的內容。這包括但不限於:
- 生成或宣揚仇恨言論、暴力或歧視性內容。
- 傳播錯誤信息或虛假新聞。
- 參與或宣揚非法活動。
- 敏感信息:不得使用該模型處理或生成個人、機密或敏感信息。
- 跨語言通用性:Jais - 30b 是雙語模型,針對阿拉伯語和英語進行了優化,不應假設它在其他語言或方言中具有同等的熟練度。
- 高風險決策:在沒有人工監督的情況下,不得使用該模型做出高風險決策。這包括醫療、法律、金融或安全關鍵決策。
偏差、風險和侷限性
該模型在公開可用的數據上進行訓練,部分數據由 Inception 整理。我們採用了不同的技術來減少模型中的偏差。儘管已努力將偏差降至最低,但與所有大語言模型一樣,該模型可能仍會表現出一定的偏差。
該模型是為阿拉伯語和英語使用者設計的 AI 助手。它僅限於為這兩種語言的查詢生成響應,對於其他語言的查詢可能無法生成合適的響應。
使用 Jais 即表示您承認並接受,與任何大語言模型一樣,它可能會生成不正確、誤導性和/或冒犯性的信息或內容。這些信息並非建議,不應以任何方式依賴,我們也不對其使用產生的任何內容或後果負責。我們正在不斷努力開發功能更強大的模型,因此歡迎對該模型提供任何反饋。
版權歸 Inception Institute of Artificial Intelligence Ltd. 所有。JAIS 根據 Apache 許可證 2.0 版本(“許可證”)提供。除非遵守許可證,否則您不得使用 JAIS。您可以在 https://www.apache.org/licenses/LICENSE - 2.0 獲得許可證副本。
除非適用法律要求或書面同意,否則 JAIS 按“原樣”分發,不提供任何形式的明示或暗示保證。請參閱許可證條款,瞭解許可證下的具體語言權限和限制。
訓練詳情
訓練數據
在 Jais - 30b 的預訓練中,我們使用了來自網絡和其他來源的多樣化雙語語料庫,還使用了公開可用的英語和代碼數據集。為了收集阿拉伯語數據,我們使用了多個來源,包括網頁、維基百科文章、新聞文章、阿拉伯語書籍和社交網絡內容。我們通過內部機器翻譯系統將英語翻譯成阿拉伯語,以增加阿拉伯語數據的數量。我們將此操作限制在高質量的英語資源上,如英語維基百科和英語書籍。我們的數據獲取策略與 Jais - 13b 中所述類似。
訓練過程
訓練在 Condor Galaxy 1(CG - 1)超級計算機平臺上進行。
訓練超參數
超參數 | 值 |
---|---|
精度 | fp32 |
優化器 | AdamW |
學習率 | 0 到 0.012(<= 69 步) 0.012 到 0.005(> 69 且 < 70k 步) 0.005 到 0.0008(>70k - 79k) |
權重衰減 | 0.1 |
批量大小 | 2640 |
步數 | 79k |
評估
我們對 Jais 進行了全面評估,並將其與其他領先的基礎語言模型進行了基準測試,重點關注英語和阿拉伯語。評估標準涵蓋了多個維度,包括:
- 知識:模型回答事實性問題的能力。
- 推理:模型回答需要推理的問題的能力。
- 錯誤信息/偏差:評估模型生成虛假或誤導性信息的可能性及其中立性。
阿拉伯語評估結果
模型 | 平均得分 | 考試 | MMLU (M) | 文學問答 | Hellaswag | PIQA | 布爾問答 | 情境問答 | ARC - C | 開放書籍問答 | 真實問答 | CrowS - Pairs |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Jais (30B) | 47.8 | 40 | 30.8 | 58.3 | 60.1 | 70 | 68.7 | 43.3 | 38.5 | 32.2 | 42.6 | 56.9 |
Jais (13B) | 46.5 | 40.4 | 30.0 | 58.3 | 57.7 | 67.6 | 62.6 | 42.5 | 35.8 | 32.4 | 41.1 | 58.4 |
acegpt - 13b | 42.5 | 34.7 | 29.9 | 42.3 | 45.6 | 60.3 | 63.2 | 38.1 | 32.8 | 32.2 | 45.1 | 56.4 |
acegpt - 7b | 42.4 | 35.4 | 29 | 46.3 | 43.8 | 60.4 | 63.4 | 37.2 | 31.1 | 32 | 45.3 | 55.4 |
BLOOM (7.1B) | 40.9 | 34.0 | 28.2 | 37.1 | 40.9 | 58.4 | 59.9 | 39.1 | 27.3 | 28.0 | 44.4 | 53.5 |
LLaMA (30B) | 38.8 | 27.9 | 28.5 | 32.6 | 35 | 52.7 | 63.7 | 34.9 | 25.7 | 28.6 | 47.2 | 49.8 |
LLaMA2 (13B) | 38.1 | 29.2 | 28.4 | 32.0 | 34.3 | 52.9 | 63.8 | 36.4 | 24.3 | 30.0 | 45.5 | 49.9 |
英語評估結果
模型 | 平均得分 | MMLU | RACE | Hellaswag | PIQA | 布爾問答 | 情境問答 | ARC - C | 開放書籍問答 | Winogrande | 真實問答 | CrowS - Pairs |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Jais (30B) | 56.2 | 34.5 | 39.8 | 75.1 | 79.5 | 74.3 | 49.9 | 45.9 | 41.2 | 68.4 | 36.5 | 73.3 |
Jais (13B) | 53.9 | 31.5 | 38.3 | 71.8 | 77.9 | 67.6 | 48.2 | 41.9 | 40.6 | 68.4 | 35.4 | 71.5 |
OPT - 30b | 59.4 | 38.6 | 45.2 | 71.7 | 78.5 | 87.3 | 63.4 | 44.8 | 40.2 | 72.2 | 38.7 | 72.7 |
MPT - 30b | 57.3 | 38.8 | 39.7 | 80 | 80.8 | 73.9 | 45.6 | 49.2 | 43.2 | 71.1 | 38.3 | 69.3 |
Llama - 30b | 55.4 | 37 | 40.2 | 79.2 | 80.1 | 68.3 | 44 | 45.3 | 42 | 72.7 | 42.3 | 58.2 |
Falcon (40B) | 54.8 | 31.3 | 37.1 | 76.4 | 80.5 | 73.7 | 43.2 | 43.6 | 44.2 | 67.2 | 34.3 | 72.3 |
🔧 技術細節
該模型基於 Transformer 架構的僅解碼器(GPT - 3 類似)結構,使用 SwiGLU 非線性激活函數和 ALiBi 位置嵌入。ALiBi 位置嵌入使得模型能夠處理長序列,提升上下文處理能力和模型精度。訓練過程在 Condor Galaxy 1(CG - 1)超級計算機平臺上進行,採用了 AdamW 優化器,並設置了特定的學習率、權重衰減、批量大小和訓練步數等超參數。
📄 許可證
該模型使用 Apache 2.0 許可證。版權歸 Inception Institute of Artificial Intelligence Ltd. 所有。
📖 引用
@misc{sengupta2023jais,
title={Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models},
author={Neha Sengupta and Sunil Kumar Sahu and Bokang Jia and Satheesh Katipomu and Haonan Li and Fajri Koto and Osama Mohammed Afzal and Samta Kamboj and Onkar Pandit and Rahul Pal and Lalit Pradhan and Zain Muhammad Mujahid and Massa Baali and Alham Fikri Aji and Zhengzhong Liu and Andy Hock and Andrew Feldman and Jonathan Lee and Andrew Jackson and Preslav Nakov and Timothy Baldwin and Eric Xing},
year={2023},
eprint={2308.16149},
archivePrefix={arXiv},
primaryClass={cs.CL}
}



