noon-7b开源阿拉伯语大模型 - 免费部署可解决文本、代码、数学问答

首页

Noon 7b

由 Naseej 开发

Noon是一个基于BLOOM架构的70亿参数阿拉伯语大语言模型，专为指令微调设计，支持文本生成、代码生成、数学问题解决及问答等任务。

大型语言模型

Transformers

支持多种语言开源协议:Openrail #阿拉伯语指令微调 #多任务文本生成 #70亿参数规模

下载量 200

发布时间 : 5/20/2023

模型简介

Noon是目前最大的阿拉伯语语言模型之一，基于BLOOM架构，通过ColossalAI框架训练，支持多种阿拉伯语指令和问题响应。

模型特点

阿拉伯语优化

专为阿拉伯语指令微调设计，是目前最大的阿拉伯语语言模型之一。

多任务支持

能够处理文本生成、代码生成、数学问题解决以及闭卷/开卷问答等多样化任务。

先进训练技术

使用ColossalAI框架进行分布式多GPU训练，并应用了LoRA和ZeRO等优化技术。

模型能力

文本生成

代码生成

数学问题解决

闭卷问答

开卷问答

使用案例

教育

教学辅助

生成教学材料或解答学生问题。

数学问题解答

解决小学数学问题，如算术题。

健康生活

健康建议

提供保持健康生活的建议。

禁食知识

回答关于禁食好处的问题。

🚀 努恩（Noon） - 70亿参数阿拉伯语大语言模型

努恩（Noon）是基于大科学（bigscience）研讨会发布的基础模型 BLOOM 的阿拉伯语大语言模型。它拥有70亿参数，主要用于响应各种类型的指令和问题，如文本生成、代码生成、数学问题、封闭式/开放式问题等。

🚀 快速开始

本模型的使用仅需要 Transformers 库，可按以下方式加载：

from transformers import BloomTokenizerFast, BloomForCausalLM, pipeline

text="اكتب مقالا من عدة أسطر عن الذكاء الصناعي وتطوراته"
prompt = f'Instruction:\n{text}\n\nResponse:'

model = BloomForCausalLM.from_pretrained('Naseej/noon-7b')

tokenizer = BloomTokenizerFast.from_pretrained('Naseej/noon-7b')

generation_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)

# 我们推荐使用以下生成超参数
# 但鼓励你尝试不同的值
response = generation_pipeline(prompt,
    pad_token_id=tokenizer.eos_token_id,
    do_sample=False,
    num_beams=4,
    max_length=500,
    top_p=0.1,
    top_k=20,
    repetition_penalty = 3.0,
    no_repeat_ngram_size=3)[0]['generated_text']

print(response)

✨ 主要特性

多任务处理：能够处理多种类型的指令和问题，包括文本生成、代码生成、数学问题求解等。
大规模训练：基于超过110,000条阿拉伯语数据记录进行训练，涵盖超过1100万个单词。
先进训练技术：采用分布式多GPU训练、LoRA（低秩适应）和ZeRO（零冗余优化）等先进训练技术。

📦 安装指南

使用本模型仅需安装 Transformers 库，可通过以下命令进行安装：

pip install transformers

💻 使用示例

基础用法

from transformers import BloomTokenizerFast, BloomForCausalLM, pipeline

text="اكتب مقالا من عدة أسطر عن الذكاء الصناعي وتطوراته"
prompt = f'Instruction:\n{text}\n\nResponse:'

model = BloomForCausalLM.from_pretrained('Naseej/noon-7b')
tokenizer = BloomTokenizerFast.from_pretrained('Naseej/noon-7b')
generation_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)

response = generation_pipeline(prompt,
    pad_token_id=tokenizer.eos_token_id,
    do_sample=False,
    num_beams=4,
    max_length=500,
    top_p=0.1,
    top_k=20,
    repetition_penalty = 3.0,
    no_repeat_ngram_size=3)[0]['generated_text']

print(response)

📚 详细文档

训练计算要求

努恩 - 7b 模型使用 ColossalAI 框架在8个A100 GPU上进行分布式多GPU训练。

数据集

训练数据由多个阿拉伯语数据集组合而成，涵盖多个任务，具体包括：

Alpaca数据集第二版，使用GPT4生成。
自我指令记录，包括使用 self - instruct 框架生成的样本以及进一步翻译的样本。
Databricks 发布的指令数据集，包含高质量的人工生成指令和响应。
TruthfulQA 数据集，用于指导模型真实地回答基于事实的问题。
Grade School Math 数据集，通过思维链数学问题提升模型性能。
我们使用ChatGPT生成的阿拉伯语算术问题，用于进一步提高模型解决数学问题的能力。

完整数据集总计超过 110K 条记录。

评估

通过一组超过4000个阿拉伯语数据样本，使用 OpenAI的 GPT3.5 Turbo 模型对努恩 - 7b 进行自动评估。为GPT3.5 Turbo提供明确且精心设计的评估标准（与模型的训练目标以及阿拉伯语的句法和语法规则一致），要求其对努恩模型对输入指令的每个响应进行 1 - 5 分的评分。最终平均得分达到令人印象深刻的 4.07/5 分。

🔧 技术细节

本模型基于BLOOM模型进行训练，使用ColossalAI框架，该框架完全支持HuggingFace库模型，并实现了针对十亿级大语言模型的不同优化和量化技术。训练过程中采用了分布式多GPU训练、LoRA（低秩适应）和ZeRO（零冗余优化）等先进技术。

📄 许可证

本模型使用 bigscience - bloom - rail - 1.0 许可证。

⚠️ 重要提示

本AI模型生成的响应纯粹基于算法，应谨慎解读。模型的输出可能偶尔会出现偏差、冒犯性语言或潜在有害内容。需要注意的是，这些响应并不反映作者或Naseej组织的个人偏好或观点。尽管我们尽最大努力减轻模型输出的有害性，但无法保证完全消除偏差或冒犯性内容。模型从大量数据中学习，可能会无意中复制或放大训练数据中存在的现有社会偏差。建议用户批判性地评估和验证模型提供的信息，在使用模型响应时保持谨慎，特别是在处理敏感或有争议的话题时。我们致力于持续的研究和开发，以提高模型性能，减少偏差并降低有害输出。您的反馈和见解对我们实现这些目标非常有价值。