🚀 努恩(Noon) - 70亿参数阿拉伯语大语言模型
努恩(Noon)是基于 大科学(bigscience) 研讨会发布的基础模型 BLOOM 的阿拉伯语大语言模型。它拥有70亿参数,主要用于响应各种类型的指令和问题,如文本生成、代码生成、数学问题、封闭式/开放式问题等。
🚀 快速开始
本模型的使用仅需要 Transformers
库,可按以下方式加载:
from transformers import BloomTokenizerFast, BloomForCausalLM, pipeline
text="اكتب مقالا من عدة أسطر عن الذكاء الصناعي وتطوراته"
prompt = f'Instruction:\n{text}\n\nResponse:'
model = BloomForCausalLM.from_pretrained('Naseej/noon-7b')
tokenizer = BloomTokenizerFast.from_pretrained('Naseej/noon-7b')
generation_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)
response = generation_pipeline(prompt,
pad_token_id=tokenizer.eos_token_id,
do_sample=False,
num_beams=4,
max_length=500,
top_p=0.1,
top_k=20,
repetition_penalty = 3.0,
no_repeat_ngram_size=3)[0]['generated_text']
print(response)
✨ 主要特性
- 多任务处理:能够处理多种类型的指令和问题,包括文本生成、代码生成、数学问题求解等。
- 大规模训练:基于超过110,000条阿拉伯语数据记录进行训练,涵盖超过1100万个单词。
- 先进训练技术:采用分布式多GPU训练、LoRA(低秩适应)和ZeRO(零冗余优化)等先进训练技术。
📦 安装指南
使用本模型仅需安装 Transformers
库,可通过以下命令进行安装:
pip install transformers
💻 使用示例
基础用法
from transformers import BloomTokenizerFast, BloomForCausalLM, pipeline
text="اكتب مقالا من عدة أسطر عن الذكاء الصناعي وتطوراته"
prompt = f'Instruction:\n{text}\n\nResponse:'
model = BloomForCausalLM.from_pretrained('Naseej/noon-7b')
tokenizer = BloomTokenizerFast.from_pretrained('Naseej/noon-7b')
generation_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)
response = generation_pipeline(prompt,
pad_token_id=tokenizer.eos_token_id,
do_sample=False,
num_beams=4,
max_length=500,
top_p=0.1,
top_k=20,
repetition_penalty = 3.0,
no_repeat_ngram_size=3)[0]['generated_text']
print(response)
📚 详细文档
训练计算要求
努恩 - 7b 模型使用 ColossalAI 框架在8个A100 GPU上进行分布式多GPU训练。
数据集
训练数据由多个阿拉伯语数据集组合而成,涵盖多个任务,具体包括:
完整数据集总计超过 110K 条记录。
评估
通过一组超过4000个阿拉伯语数据样本,使用 OpenAI的 GPT3.5 Turbo 模型对努恩 - 7b 进行自动评估。为GPT3.5 Turbo提供明确且精心设计的评估标准(与模型的训练目标以及阿拉伯语的句法和语法规则一致),要求其对努恩模型对输入指令的每个响应进行 1 - 5 分的评分。最终平均得分达到令人印象深刻的 4.07/5 分。
🔧 技术细节
本模型基于BLOOM模型进行训练,使用ColossalAI框架,该框架完全支持HuggingFace库模型,并实现了针对十亿级大语言模型的不同优化和量化技术。训练过程中采用了分布式多GPU训练、LoRA(低秩适应)和ZeRO(零冗余优化)等先进技术。
📄 许可证
本模型使用 bigscience - bloom - rail - 1.0
许可证。
⚠️ 重要提示
本AI模型生成的响应纯粹基于算法,应谨慎解读。模型的输出可能偶尔会出现偏差、冒犯性语言或潜在有害内容。需要注意的是,这些响应并不反映作者或Naseej组织的个人偏好或观点。尽管我们尽最大努力减轻模型输出的有害性,但无法保证完全消除偏差或冒犯性内容。模型从大量数据中学习,可能会无意中复制或放大训练数据中存在的现有社会偏差。建议用户批判性地评估和验证模型提供的信息,在使用模型响应时保持谨慎,特别是在处理敏感或有争议的话题时。我们致力于持续的研究和开发,以提高模型性能,减少偏差并降低有害输出。您的反馈和见解对我们实现这些目标非常有价值。