jais_13B_8bit开源双语大模型 - 支持阿英长序列处理内容生成

首页

Jais 13B 8bit

由 asas-ai 开发

130亿参数阿拉伯语-英语双语大语言模型，基于Transformer架构，支持长序列处理

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #阿拉伯语大模型 #双语生成 #ALiBi位置编码

下载量 72

发布时间 : 9/7/2023

模型简介

专为阿拉伯语和英语优化的生成式大语言模型，采用ALiBi位置嵌入技术提升上下文处理能力

模型特点

双语优化

专为阿拉伯语和英语设计，训练数据包含720亿阿拉伯语词元和2790亿英语/代码词元

长序列处理

采用ALiBi位置嵌入技术，支持外推处理长上下文序列

高性能架构

基于GPT-3架构改进，使用SwiGLU非线性激活函数

模型能力

阿拉伯语文本生成

英语文本生成

双语问答

代码生成

使用案例

研究领域

阿拉伯语NLP研究

为阿拉伯语自然语言处理研究提供基础模型

在阿拉伯语综合测试套件中实现SOTA性能

商业应用

聊天助手

可作为阿拉伯语聊天机器人的基础模型

客户服务

用于处理阿拉伯语客户的咨询和请求

🚀 Jais-13b

Jais-13b是一个拥有130亿参数的预训练双语大语言模型，支持阿拉伯语和英语。它在包含720亿阿拉伯语标记和2790亿英语/代码标记的数据集上进行训练，能有效处理这两种语言的文本任务，为相关研究和应用提供了强大支持。

🚀 快速开始

以下是使用该模型的示例代码。请注意，该模型需要自定义模型类，因此用户在加载模型时必须启用trust_remote_code=True。此外，此代码在transformers==4.28.0版本上进行了测试。

# -*- coding: utf-8 -*-

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "asas-ai/jais_13B_8bit"

device = "cuda" if torch.cuda.is_available() else "cpu"

tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)


def get_response(text,tokenizer=tokenizer,model=model):
    input_ids = tokenizer(text, return_tensors="pt").input_ids
    inputs = input_ids.to(device)
    input_len = inputs.shape[-1]
    generate_ids = model.generate(
        inputs,
        top_p=0.9,
        temperature=0.3,
        max_length=200-input_len,
        min_length=input_len + 4,
        repetition_penalty=1.2,
        do_sample=True,
    )
    response = tokenizer.batch_decode(
        generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
    )[0]
    return response


text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))

text = "The capital of UAE is"
print(get_response(text))

✨ 主要特性

双语支持：支持阿拉伯语和英语两种语言，能处理多种文本输入并生成相应语言的文本输出。
先进架构：基于Transformer的仅解码器（GPT - 3）架构，并使用SwiGLU非线性激活函数，同时实现了ALiBi位置嵌入，可处理长序列输入，提升上下文处理能力和模型精度。
广泛应用：可用于研究、商业等多个领域，如作为基础模型进行特定用例的微调，开发聊天助手、客户服务系统等。

📚 详细文档

模型详情

开发团队：Inception、穆罕默德·本·扎耶德人工智能大学（MBZUAI）和Cerebras Systems。
支持语言（NLP）：阿拉伯语和英语。
许可证：Apache 2.0。
输入：仅支持文本数据。
输出：模型生成文本。
相关论文：Jais and Jais - chat: Arabic - Centric Foundation and Instruction - Tuned Open Generative Large Language Models
演示地址：点击访问

预期用途

我们在完全开源许可下发布Jais 13B模型，欢迎各方反馈和合作机会。该模型是Inception - MBZUAI - Cerebras合作的首个版本，发布时在综合阿拉伯语测试套件中达到了先进水平。其潜在的下游应用包括：

研究领域：可供研究人员和开发者使用。
商业用途：可作为基础模型，针对特定用例进行进一步微调（类似于jais - 13b - chat），潜在用例包括聊天助手、客户服务等。

我们希望受益于该模型的群体包括：

学术界：从事阿拉伯语自然语言处理研究的人员。
企业界：针对阿拉伯语受众的公司。
开发者：在应用程序中集成阿拉伯语能力的开发者。

非预期用途

虽然Jais - 13b是一个强大的阿拉伯语和英语双语模型，但需了解其局限性和可能的误用情况。禁止以任何违反适用法律法规的方式使用该模型。以下是一些不适合使用该模型的场景：

恶意使用：不得用于生成有害、误导性或不适当的内容，包括但不限于生成或宣传仇恨言论、暴力、歧视性内容，传播错误信息或虚假新闻，参与或宣传非法活动。
敏感信息处理：不得用于处理或生成个人、机密或敏感信息。
跨语言泛化：Jais - 13b是双语模型，针对阿拉伯语和英语进行了优化，不能假定它在其他语言或方言上具有同等的能力。
高风险决策：在没有人工监督的情况下，不得用于做出高风险决策，如医疗、法律、金融或安全关键决策。

偏差、风险和局限性

该模型在公开可用的数据上进行训练，部分数据由Inception整理。我们采用了不同的技术来减少模型中的偏差，但与所有大语言模型一样，该模型可能仍会表现出一定的偏差。

该模型是为阿拉伯语和英语使用者设计的AI助手，仅限于对这两种语言的查询生成响应，可能无法对其他语言的查询生成合适的响应。

使用Jais时，您应承认并接受，与任何大语言模型一样，它可能会生成不正确、误导性和/或冒犯性的信息或内容。这些信息并非建议，不应以任何方式依赖，我们也不对其使用产生的任何内容或后果负责。我们正在不断努力开发功能更强大的模型，欢迎对该模型提供任何反馈。

🔧 技术细节

训练数据

在Jais - 13b的预训练中，我们使用了来自网络和其他来源的多样化双语语料库，以及公开可用的英语和代码数据集。为收集阿拉伯语数据，我们使用了多个来源，包括网页、维基百科文章、新闻文章、阿拉伯语书籍和社交网络内容。我们还使用内部机器翻译系统将英语翻译成阿拉伯语，以增加阿拉伯语数据的数量，但仅限于高质量的英语资源，如英语维基百科和英语书籍。有关训练数据的更多详细信息可在技术报告中找到。

训练过程

训练在Condor Galaxy 1（CG - 1）超级计算机平台上进行。

训练超参数

超参数	值
精度	fp32
优化器	AdamW
学习率	0至0.012（<= 95步） 0.012至0.0012（> 95步）
权重衰减	0.1
批量大小	1920
步数	100551

📈 评估

我们对Jais进行了全面评估，并将其与其他领先的基础语言模型进行了基准测试，重点关注英语和阿拉伯语。评估标准涵盖多个维度，包括：

知识能力：模型回答事实性问题的能力。
推理能力：模型回答需要推理的问题的能力。
错误信息/偏差：评估模型生成虚假或误导性信息的可能性及其中立性。

阿拉伯语评估结果如下：

模型	平均得分	考试得分	MMLU（M）	文学问答	Hellaswag	PIQA	布尔问答	情境问答	ARC - C	开放书籍问答	真实问答	CrowS - Pairs
Jais (13B)	46.5	40.4	30.0	58.3	57.7	67.6	62.6	42.5	35.8	32.4	41.1	58.4
BLOOM (7.1B)	40.9	34.0	28.2	37.1	40.9	58.4	59.9	39.1	27.3	28.0	44.4	53.5
LLaMA2 (13B)	38.1	29.2	28.4	32.0	34.3	52.9	63.8	36.4	24.3	30.0	45.5	49.9
AraT5 (220M)	32.0	24.7	23.8	26.3	25.5	50.4	58.2	33.9	24.7	25.4	20.9	47.2
AraBART (550M)	36.7	26.5	27.5	34.3	28.1	52.6	57.1	34.6	25.1	28.6	49.8	48.8

以上所有任务均报告准确率或F1分数（分数越高越好）。为简洁起见，我们未包含英语任务的结果。两种语言的详细比较和评估数据集的详细信息可在技术报告中找到。

📄 许可证

本模型采用Apache 2.0许可证。

📖 引用

@misc{sengupta2023jais,
      title={Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models}, 
      author={Neha Sengupta and Sunil Kumar Sahu and Bokang Jia and Satheesh Katipomu and Haonan Li and Fajri Koto and Osama Mohammed Afzal and Samta Kamboj and Onkar Pandit and Rahul Pal and Lalit Pradhan and Zain Muhammad Mujahid and Massa Baali and Alham Fikri Aji and Zhengzhong Liu and Andy Hock and Andrew Feldman and Jonathan Lee and Andrew Jackson and Preslav Nakov and Timothy Baldwin and Eric Xing},
      year={2023},
      eprint={2308.16149},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}