OpenELM-3B-Instruct开源语言模型 - 免费部署实现高精度文本交互

首页

Openelm 3B Instruct

由 apple 开发

OpenELM是一组开源高效语言模型，采用分层参数分配策略提升模型精度，包含2.7亿至30亿参数的预训练及指令调优版本。

大型语言模型

Transformers

#分层参数分配 #高效语言模型 #多任务微调

下载量 8,716

发布时间 : 4/12/2024

模型简介

OpenELM是由苹果公司推出的开源高效语言模型系列，通过创新的分层参数分配策略优化Transformer层内参数分布，显著提升模型效率。该系列包含多种规模的预训练模型及经过指令微调的版本，适用于各类自然语言处理任务。

模型特点

分层参数分配

在Transformer各层中智能分配参数，相比传统均匀分配显著提升模型效率

完整开源生态

提供从数据准备到训练评估的全套工具链，包括CoreNet训练框架

多规模选择

提供从2.7亿到30亿参数的多种模型规模，满足不同计算需求

指令调优版本

除基础预训练模型外，还发布经过指令微调的版本，优化对话交互能力

模型能力

文本生成

语言理解

问答系统

指令跟随

使用案例

教育研究

学术问答

基于SciQ等科学问答数据集的优异表现，适合教育场景的知识问答应用

在SciQ数据集上达到92.7%准确率

内容生成

创意写作

利用模型的文本生成能力辅助故事创作

示例中展示了'很久很久以前...'的故事开头生成

🚀 OpenELM

Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal, Mohammad Rastegari

OpenELM 是一系列开放、高效的语言模型。该模型采用逐层缩放策略，在 Transformer 模型的每一层内高效分配参数，从而提高了准确性。我们使用 CoreNet 库对 OpenELM 模型进行了预训练。我们发布了参数分别为 2.7 亿、4.5 亿、11 亿和 30 亿的预训练模型和指令微调模型。同时，我们还发布了完整的框架，包括数据准备、训练、微调、评估等流程，以及多个预训练检查点和训练日志，以促进开放研究。

我们的预训练数据集包含 RefinedWeb、去重后的 PILE、RedPajama 的一个子集和 Dolma v1.6 的一个子集，总计约 18 万亿个标记。使用这些数据集前，请查看其许可协议和使用条款。

🚀 快速开始

我们在 generate_openelm.py 中提供了一个示例函数，用于通过 HuggingFace Hub 加载 OpenELM 模型并生成输出。

你可以运行以下命令来试用该模型：

python generate_openelm.py --model apple/OpenELM-3B-Instruct --hf_access_token [HF_ACCESS_TOKEN] --prompt 'Once upon a time there was' --generate_kwargs repetition_penalty=1.2

请参考此链接获取你的 Hugging Face 访问令牌。

可以通过 generate_kwargs 传递其他参数给 Hugging Face 的生成函数。例如，为了加速推理，你可以尝试通过传递 prompt_lookup_num_tokens 参数来使用查找令牌推测生成：

python generate_openelm.py --model apple/OpenELM-3B-Instruct --hf_access_token [HF_ACCESS_TOKEN] --prompt 'Once upon a time there was' --generate_kwargs repetition_penalty=1.2 prompt_lookup_num_tokens=10

或者，通过 assistant_model 参数传递一个较小的模型，尝试使用辅助模型进行模型级别的推测生成，例如：

python generate_openelm.py --model apple/OpenELM-3B-Instruct --hf_access_token [HF_ACCESS_TOKEN] --prompt 'Once upon a time there was' --generate_kwargs repetition_penalty=1.2 --assistant_model [SMALLER_MODEL]

✨ 主要特性

高效参数分配：采用逐层缩放策略，在 Transformer 模型的每一层内高效分配参数，提高了模型的准确性。
多参数版本发布：发布了参数分别为 2.7 亿、4.5 亿、11 亿和 30 亿的预训练模型和指令微调模型。
完整框架开源：发布了完整的框架，包括数据准备、训练、微调、评估等流程，以及多个预训练检查点和训练日志，方便进行开放研究。

💻 使用示例

基础用法

# 以下是在 generate_openelm.py 中使用 OpenELM 模型生成输出的示例代码
python generate_openelm.py --model apple/OpenELM-3B-Instruct --hf_access_token [HF_ACCESS_TOKEN] --prompt 'Once upon a time there was' --generate_kwargs repetition_penalty=1.2

高级用法

# 加速推理，使用查找令牌推测生成
python generate_openelm.py --model apple/OpenELM-3B-Instruct --hf_access_token [HF_ACCESS_TOKEN] --prompt 'Once upon a time there was' --generate_kwargs repetition_penalty=1.2 prompt_lookup_num_tokens=10

# 使用辅助模型进行模型级别的推测生成
python generate_openelm.py --model apple/OpenELM-3B-Instruct --hf_access_token [HF_ACCESS_TOKEN] --prompt 'Once upon a time there was' --generate_kwargs repetition_penalty=1.2 --assistant_model [SMALLER_MODEL]

📚 详细文档

主要结果

零样本学习

模型规模	ARC-c	ARC-e	BoolQ	HellaSwag	PIQA	SciQ	WinoGrande	平均
OpenELM-270M	26.45	45.08	53.98	46.71	69.75	84.70	53.91	54.37
OpenELM-270M-Instruct	30.55	46.68	48.56	52.07	70.78	84.40	52.72	55.11
OpenELM-450M	27.56	48.06	55.78	53.97	72.31	87.20	58.01	57.56
OpenELM-450M-Instruct	30.38	50.00	60.37	59.34	72.63	88.00	58.96	59.95
OpenELM-1_1B	32.34	55.43	63.58	64.81	75.57	90.60	61.72	63.44
OpenELM-1_1B-Instruct	37.97	52.23	70.00	71.20	75.03	89.30	62.75	65.50
OpenELM-3B	35.58	59.89	67.40	72.44	78.24	92.70	65.51	67.39
OpenELM-3B-Instruct	39.42	61.74	68.17	76.36	79.00	92.50	66.85	69.15

LLM360

模型规模	ARC-c	HellaSwag	MMLU	TruthfulQA	WinoGrande	平均
OpenELM-270M	27.65	47.15	25.72	39.24	53.83	38.72
OpenELM-270M-Instruct	32.51	51.58	26.70	38.72	53.20	40.54
OpenELM-450M	30.20	53.86	26.01	40.18	57.22	41.50
OpenELM-450M-Instruct	33.53	59.31	25.41	40.48	58.33	43.41
OpenELM-1_1B	36.69	65.71	27.05	36.98	63.22	45.93
OpenELM-1_1B-Instruct	41.55	71.83	25.65	45.95	64.72	49.94
OpenELM-3B	42.24	73.28	26.76	34.98	67.25	48.90
OpenELM-3B-Instruct	47.70	76.87	24.80	38.76	67.96	51.22

OpenLLM 排行榜

模型规模	ARC-c	CrowS-Pairs	HellaSwag	MMLU	PIQA	RACE	TruthfulQA	WinoGrande	平均
OpenELM-270M	27.65	66.79	47.15	25.72	69.75	30.91	39.24	53.83	45.13
OpenELM-270M-Instruct	32.51	66.01	51.58	26.70	70.78	33.78	38.72	53.20	46.66
OpenELM-450M	30.20	68.63	53.86	26.01	72.31	33.11	40.18	57.22	47.69
OpenELM-450M-Instruct	33.53	67.44	59.31	25.41	72.63	36.84	40.48	58.33	49.25
OpenELM-1_1B	36.69	71.74	65.71	27.05	75.57	36.46	36.98	63.22	51.68
OpenELM-1_1B-Instruct	41.55	71.02	71.83	25.65	75.03	39.43	45.95	64.72	54.40
OpenELM-3B	42.24	73.29	73.28	26.76	78.24	38.76	34.98	67.25	54.35
OpenELM-3B-Instruct	47.70	72.33	76.87	24.80	79.00	38.47	38.76	67.96	55.73

更多结果和比较请查看技术报告。

评估

环境搭建

安装以下依赖：

# 安装公共的 lm-eval-harness
harness_repo="public-lm-eval-harness"
git clone https://github.com/EleutherAI/lm-evaluation-harness ${harness_repo}
cd ${harness_repo}
# 使用 2024 年 3 月 15 日的主分支，SHA 为 dc90fec
git checkout dc90fec
pip install -e .
cd ..

# 66d6242 是 2024 年 4 月 1 日的主分支
pip install datasets@git+https://github.com/huggingface/datasets.git@66d6242
pip install tokenizers>=0.15.2 transformers>=4.38.2 sentencepiece>=0.2.0

评估 OpenELM

# OpenELM-3B-Instruct
hf_model=apple/OpenELM-3B-Instruct

# 由于 lm-eval-harness 默认将 add_bos_token 设置为 False，但 OpenELM 使用的 LLaMA 分词器需要 add_bos_token 为 True，因此需要此标志
tokenizer=meta-llama/Llama-2-7b-hf
add_bos_token=True
batch_size=1

mkdir lm_eval_output

shot=0
task=arc_challenge,arc_easy,boolq,hellaswag,piqa,race,winogrande,sciq,truthfulqa_mc2
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

shot=5
task=mmlu,winogrande
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

shot=25
task=arc_challenge,crows_pairs_english
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

shot=10
task=hellaswag
lm_eval --model hf \
        --model_args pretrained=${hf_model},trust_remote_code=True,add_bos_token=${add_bos_token},tokenizer=${tokenizer} \
        --tasks ${task} \
        --device cuda:0 \
        --num_fewshot ${shot} \
        --output_path ./lm_eval_output/${hf_model//\//_}_${task//,/_}-${shot}shot \
        --batch_size ${batch_size} 2>&1 | tee ./lm_eval_output/eval-${hf_model//\//_}_${task//,/_}-${shot}shot.log

偏差、风险和局限性

发布 OpenELM 模型旨在为开放研究社区提供最先进的语言模型，以推动和丰富相关研究。这些模型基于公开可用的数据集进行训练，但不提供任何安全保证。因此，这些模型可能会根据用户的提示生成不准确、有害、有偏差或令人反感的输出。所以，用户和开发者必须进行全面的安全测试，并根据自身需求实施适当的过滤机制。

📄 许可证

本项目遵循 apple-amlr 许可证。

📖 引用

如果您觉得我们的工作有用，请引用：

@article{mehtaOpenELMEfficientLanguage2024,
	title = {{OpenELM}: {An} {Efficient} {Language} {Model} {Family} with {Open} {Training} and {Inference} {Framework}},
	shorttitle = {{OpenELM}},
	url = {https://arxiv.org/abs/2404.14619v1},
	language = {en},
	urldate = {2024-04-24},
	journal = {arXiv.org},
	author = {Mehta, Sachin and Sekhavat, Mohammad Hossein and Cao, Qingqing and Horton, Maxwell and Jin, Yanzi and Sun, Chenfan and Mirzadeh, Iman and Najibi, Mahyar and Belenko, Dmitry and Zatloukal, Peter and Rastegari, Mohammad},
	month = apr,
	year = {2024},
}

@inproceedings{mehta2022cvnets, 
     author = {Mehta, Sachin and Abdolhosseini, Farzad and Rastegari, Mohammad}, 
     title = {CVNets: High Performance Library for Computer Vision}, 
     year = {2022}, 
     booktitle = {Proceedings of the 30th ACM International Conference on Multimedia}, 
     series = {MM '22} 
}