L

Llama 1B Dj Refine 150B

由 datajuicer 开发
基于OpenLLaMA架构,在Data-Juicer精炼的RedPajama和Pile数据集上预训练的大语言模型,性能超越同类1.3B参数规模模型。
下载量 2,834
发布时间 : 10/30/2023

模型简介

本模型是Data-Juicer发布的参考级大语言模型,采用LLaMA-1.3B架构,在精炼数据集上训练,适用于多种自然语言处理任务。

模型特点

高质量训练数据
使用Data-Juicer精炼的RedPajama和Pile数据集,数据质量优于原始数据集
高效训练
仅用1500亿token训练即达到优异性能,训练效率高于同类模型
性能优越
在16项HELM基准测试中平均得分34.21,超越Falcon-1.3B、Pythia-1.4B等同类模型

模型能力

文本生成
语言理解
知识问答
文本摘要

使用案例

研究应用
语言模型基准测试
用于评估和比较不同语言模型的性能
在HELM基准测试中表现优异
商业应用
智能客服
用于构建英语智能客服系统
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase