模型简介
模型特点
模型能力
使用案例
🚀 Jais-13b
Jais-13b 是一款拥有 130 亿参数的预训练双语大语言模型,支持阿拉伯语和英语。它在包含 720 亿阿拉伯语标记和 2790 亿英语/代码标记的数据集上进行训练,能够有效处理和生成这两种语言的文本内容,为相关领域的研究和应用提供了强大支持。
🚀 快速开始
以下是使用该模型的示例代码。请注意,该模型需要自定义模型类,因此用户在加载模型时必须启用 trust_remote_code=True
。此外,此代码在 transformers==4.28.0
版本上进行了测试。
# -*- coding: utf-8 -*-
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "core42/jais-13b"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text,tokenizer=tokenizer,model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=200-input_len,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
✨ 主要特性
- 基于Transformer的仅解码器(GPT - 3)架构,使用SwiGLU非线性激活函数。
- 实现了ALiBi位置嵌入,能够外推到长序列长度,提升上下文处理能力和模型精度。
- 在阿拉伯语和英语双语处理上表现出色,在综合阿拉伯语测试套件中达到了当前最优水平。
📚 详细文档
模型详情
属性 | 详情 |
---|---|
开发者 | Inception、穆罕默德·本·扎耶德人工智能大学 (MBZUAI) 和 Cerebras Systems |
支持语言 (NLP) | 阿拉伯语和英语 |
许可证 | Apache 2.0 |
输入 | 仅文本数据 |
输出 | 模型生成文本 |
论文 | Jais and Jais - chat: Arabic - Centric Foundation and Instruction - Tuned Open Generative Large Language Models |
演示 | 点击访问 |
预期用途
我们以完全开源的许可证发布 Jais 13B 模型,欢迎所有反馈和合作机会。该模型是 Inception - MBZUAI - Cerebras 合作项目的首次发布,在发布时,在随附的技术报告中描述的综合阿拉伯语测试套件中达到了当前最优水平。一些潜在的下游用途包括:
- 研究:可供研究人员和开发者使用。
- 商业用途:可作为基础模型,针对特定用例进行进一步微调(类似于 [jais - 13b - chat](https://huggingface.co/inception - mbzuai/jais - 13b - chat))。一些潜在用例包括:
- 聊天助手。
- 客户服务。
我们希望以下受众能从我们的模型中受益:
- 学术界:从事阿拉伯语自然语言处理研究的人员。
- 企业:针对阿拉伯语受众的公司。
- 开发者:在应用程序中集成阿拉伯语能力的人员。
非预期用途
虽然 Jais - 13b 是一款强大的阿拉伯语和英语双语模型,但必须了解其局限性和潜在的滥用情况。禁止以任何违反适用法律法规的方式使用该模型。以下是一些不应使用该模型的示例场景:
- 恶意使用:不得用于生成有害、误导性或不适当的内容。这包括但不限于:
- 生成或宣传仇恨言论、暴力或歧视性内容。
- 传播错误信息或虚假新闻。
- 从事或宣传非法活动。
- 敏感信息处理:不得用于处理或生成个人、机密或敏感信息。
- 跨语言泛化:Jais - 13b 是双语模型,针对阿拉伯语和英语进行了优化,不应假定其在其他语言或方言上具有同等水平的能力。
- 高风险决策:在没有人工监督的情况下,不得用于做出高风险决策。这包括医疗、法律、金融或安全关键决策。
偏差、风险和局限性
该模型在公开可用的数据上进行训练,部分数据由 Inception 整理。我们采用了不同的技术来减少模型中的偏差。尽管已努力将偏差降至最低,但与所有大语言模型一样,该模型可能仍会表现出一定的偏差。
该模型是为阿拉伯语和英语使用者训练的 AI 助手,仅限于为这两种语言的查询生成响应,对于其他语言的查询可能无法生成合适的响应。
使用 Jais 即表示您承认并接受,与任何大语言模型一样,它可能会生成不正确、误导性和/或冒犯性的信息或内容。这些信息并非建议,不应以任何方式依赖,我们也不对其使用产生的任何内容或后果负责。我们正在不断努力开发功能更强大的模型,因此欢迎对该模型提供任何反馈。
版权归 Inception Institute of Artificial Intelligence Ltd. 所有。JAIS 根据 Apache 许可证,版本 2.0(“许可证”)提供。除非符合许可证规定,否则不得使用 JAIS。您可以在 https://www.apache.org/licenses/LICENSE - 2.0 获得许可证副本。
除非适用法律要求或书面同意,否则 JAIS 按“原样”分发,不提供任何形式的明示或暗示保证或条件。请参阅许可证条款,了解许可证下的具体语言权限和限制。
训练详情
训练数据
在对 Jais - 13b 进行预训练时,我们使用了来自网络和其他来源的多样化双语语料库,同时也使用了公开可用的英语和代码数据集。为了收集阿拉伯语数据,我们使用了多个来源,包括网页、维基百科文章、新闻文章、阿拉伯语书籍和社交网络内容。我们通过内部机器翻译系统将英语翻译成阿拉伯语,以增加阿拉伯语数据的数量。我们将此操作限制在高质量的英语资源上,如英语维基百科和英语书籍。有关训练数据的更多详细信息可在技术报告中找到。
训练过程
训练在 Condor Galaxy 1 (CG - 1) 超级计算机平台上进行。
训练超参数
超参数 | 值 |
---|---|
精度 | fp32 |
优化器 | AdamW |
学习率 | 0 到 0.012(<= 95 步) 0.012 到 0.0012(> 95 步) |
权重衰减 | 0.1 |
批量大小 | 1920 |
步数 | 100551 |
评估
我们对 Jais 进行了全面评估,并将其与其他领先的基础语言模型进行了基准测试,重点关注英语和阿拉伯语。评估标准涵盖了多个维度,包括:
- 知识:模型回答事实性问题的能力。
- 推理:模型回答需要推理的问题的能力。
- 错误信息/偏差:评估模型生成虚假或误导性信息的可能性以及其中立性。
阿拉伯语评估结果:
模型 | 平均得分 | 考试 | MMLU (M) | LitQA | Hellaswag | PIQA | BoolQA | SituatedQA | ARC - C | OpenBookQA | TruthfulQA | CrowS - Pairs |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Jais (13B) | 46.5 | 40.4 | 30.0 | 58.3 | 57.7 | 67.6 | 62.6 | 42.5 | 35.8 | 32.4 | 41.1 | 58.4 |
BLOOM (7.1B) | 40.9 | 34.0 | 28.2 | 37.1 | 40.9 | 58.4 | 59.9 | 39.1 | 27.3 | 28.0 | 44.4 | 53.5 |
LLaMA2 (13B) | 38.1 | 29.2 | 28.4 | 32.0 | 34.3 | 52.9 | 63.8 | 36.4 | 24.3 | 30.0 | 45.5 | 49.9 |
AraT5 (220M) | 32.0 | 24.7 | 23.8 | 26.3 | 25.5 | 50.4 | 58.2 | 33.9 | 24.7 | 25.4 | 20.9 | 47.2 |
AraBART (139M) | 36.7 | 26.5 | 27.5 | 34.3 | 28.1 | 52.6 | 57.1 | 34.6 | 25.1 | 28.6 | 49.8 | 48.8 |
以上所有任务均报告准确率或 F1 分数(越高越好)。为简洁起见,我们未包含英语任务的结果。两种语言的详细比较和评估数据集详情可在技术报告中找到。
📄 许可证
本项目采用 Apache 2.0 许可证。版权归 Inception Institute of Artificial Intelligence Ltd. 所有。
📚 引用
@misc{sengupta2023jais,
title={Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models},
author={Neha Sengupta and Sunil Kumar Sahu and Bokang Jia and Satheesh Katipomu and Haonan Li and Fajri Koto and Osama Mohammed Afzal and Samta Kamboj and Onkar Pandit and Rahul Pal and Lalit Pradhan and Zain Muhammad Mujahid and Massa Baali and Alham Fikri Aji and Zhengzhong Liu and Andy Hock and Andrew Feldman and Jonathan Lee and Andrew Jackson and Preslav Nakov and Timothy Baldwin and Eric Xing},
year={2023},
eprint={2308.16149},
archivePrefix={arXiv},
primaryClass={cs.CL}
}



