🚀 Jais-13b
Jais-13b是一個擁有130億參數的預訓練雙語大語言模型,支持阿拉伯語和英語。它在包含720億阿拉伯語標記和2790億英語/代碼標記的數據集上進行訓練,能有效處理這兩種語言的文本任務,為相關研究和應用提供了強大支持。
🚀 快速開始
以下是使用該模型的示例代碼。請注意,該模型需要自定義模型類,因此用戶在加載模型時必須啟用trust_remote_code=True
。此外,此代碼在transformers==4.28.0
版本上進行了測試。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "asas-ai/jais_13B_8bit"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text,tokenizer=tokenizer,model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=200-input_len,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
✨ 主要特性
- 雙語支持:支持阿拉伯語和英語兩種語言,能處理多種文本輸入並生成相應語言的文本輸出。
- 先進架構:基於Transformer的僅解碼器(GPT - 3)架構,並使用SwiGLU非線性激活函數,同時實現了ALiBi位置嵌入,可處理長序列輸入,提升上下文處理能力和模型精度。
- 廣泛應用:可用於研究、商業等多個領域,如作為基礎模型進行特定用例的微調,開發聊天助手、客戶服務系統等。
📚 詳細文檔
模型詳情
預期用途
我們在完全開源許可下發布Jais 13B模型,歡迎各方反饋和合作機會。該模型是Inception - MBZUAI - Cerebras合作的首個版本,發佈時在綜合阿拉伯語測試套件中達到了先進水平。其潛在的下游應用包括:
- 研究領域:可供研究人員和開發者使用。
- 商業用途:可作為基礎模型,針對特定用例進行進一步微調(類似於jais - 13b - chat),潛在用例包括聊天助手、客戶服務等。
我們希望受益於該模型的群體包括:
- 學術界:從事阿拉伯語自然語言處理研究的人員。
- 企業界:針對阿拉伯語受眾的公司。
- 開發者:在應用程序中集成阿拉伯語能力的開發者。
非預期用途
雖然Jais - 13b是一個強大的阿拉伯語和英語雙語模型,但需瞭解其侷限性和可能的誤用情況。禁止以任何違反適用法律法規的方式使用該模型。以下是一些不適合使用該模型的場景:
- 惡意使用:不得用於生成有害、誤導性或不適當的內容,包括但不限於生成或宣傳仇恨言論、暴力、歧視性內容,傳播錯誤信息或虛假新聞,參與或宣傳非法活動。
- 敏感信息處理:不得用於處理或生成個人、機密或敏感信息。
- 跨語言泛化:Jais - 13b是雙語模型,針對阿拉伯語和英語進行了優化,不能假定它在其他語言或方言上具有同等的能力。
- 高風險決策:在沒有人工監督的情況下,不得用於做出高風險決策,如醫療、法律、金融或安全關鍵決策。
偏差、風險和侷限性
該模型在公開可用的數據上進行訓練,部分數據由Inception整理。我們採用了不同的技術來減少模型中的偏差,但與所有大語言模型一樣,該模型可能仍會表現出一定的偏差。
該模型是為阿拉伯語和英語使用者設計的AI助手,僅限於對這兩種語言的查詢生成響應,可能無法對其他語言的查詢生成合適的響應。
使用Jais時,您應承認並接受,與任何大語言模型一樣,它可能會生成不正確、誤導性和/或冒犯性的信息或內容。這些信息並非建議,不應以任何方式依賴,我們也不對其使用產生的任何內容或後果負責。我們正在不斷努力開發功能更強大的模型,歡迎對該模型提供任何反饋。
🔧 技術細節
訓練數據
在Jais - 13b的預訓練中,我們使用了來自網絡和其他來源的多樣化雙語語料庫,以及公開可用的英語和代碼數據集。為收集阿拉伯語數據,我們使用了多個來源,包括網頁、維基百科文章、新聞文章、阿拉伯語書籍和社交網絡內容。我們還使用內部機器翻譯系統將英語翻譯成阿拉伯語,以增加阿拉伯語數據的數量,但僅限於高質量的英語資源,如英語維基百科和英語書籍。有關訓練數據的更多詳細信息可在技術報告中找到。
訓練過程
訓練在Condor Galaxy 1(CG - 1)超級計算機平臺上進行。
訓練超參數
超參數 |
值 |
精度 |
fp32 |
優化器 |
AdamW |
學習率 |
0至0.012(<= 95步) 0.012至0.0012(> 95步) |
權重衰減 |
0.1 |
批量大小 |
1920 |
步數 |
100551 |
📈 評估
我們對Jais進行了全面評估,並將其與其他領先的基礎語言模型進行了基準測試,重點關注英語和阿拉伯語。評估標準涵蓋多個維度,包括:
- 知識能力:模型回答事實性問題的能力。
- 推理能力:模型回答需要推理的問題的能力。
- 錯誤信息/偏差:評估模型生成虛假或誤導性信息的可能性及其中立性。
阿拉伯語評估結果如下:
模型 |
平均得分 |
考試得分 |
MMLU(M) |
文學問答 |
Hellaswag |
PIQA |
布爾問答 |
情境問答 |
ARC - C |
開放書籍問答 |
真實問答 |
CrowS - Pairs |
Jais (13B) |
46.5 |
40.4 |
30.0 |
58.3 |
57.7 |
67.6 |
62.6 |
42.5 |
35.8 |
32.4 |
41.1 |
58.4 |
BLOOM (7.1B) |
40.9 |
34.0 |
28.2 |
37.1 |
40.9 |
58.4 |
59.9 |
39.1 |
27.3 |
28.0 |
44.4 |
53.5 |
LLaMA2 (13B) |
38.1 |
29.2 |
28.4 |
32.0 |
34.3 |
52.9 |
63.8 |
36.4 |
24.3 |
30.0 |
45.5 |
49.9 |
AraT5 (220M) |
32.0 |
24.7 |
23.8 |
26.3 |
25.5 |
50.4 |
58.2 |
33.9 |
24.7 |
25.4 |
20.9 |
47.2 |
AraBART (550M) |
36.7 |
26.5 |
27.5 |
34.3 |
28.1 |
52.6 |
57.1 |
34.6 |
25.1 |
28.6 |
49.8 |
48.8 |
以上所有任務均報告準確率或F1分數(分數越高越好)。為簡潔起見,我們未包含英語任務的結果。兩種語言的詳細比較和評估數據集的詳細信息可在技術報告中找到。
📄 許可證
本模型採用Apache 2.0許可證。
📖 引用
@misc{sengupta2023jais,
title={Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models},
author={Neha Sengupta and Sunil Kumar Sahu and Bokang Jia and Satheesh Katipomu and Haonan Li and Fajri Koto and Osama Mohammed Afzal and Samta Kamboj and Onkar Pandit and Rahul Pal and Lalit Pradhan and Zain Muhammad Mujahid and Massa Baali and Alham Fikri Aji and Zhengzhong Liu and Andy Hock and Andrew Feldman and Jonathan Lee and Andrew Jackson and Preslav Nakov and Timothy Baldwin and Eric Xing},
year={2023},
eprint={2308.16149},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
版權所有 © Inception Institute of Artificial Intelligence Ltd.