🚀 燃灯-MegatronT5-770M
该模型善于处理NLT任务,是中文版的T5-large,为自然语言处理提供强大支持。
🚀 快速开始
由于transformers库中没有Randeng-MegatronT5-770M相关的模型结构,你可以在我们的Fengshenbang-LM中找到并运行代码。
git clone https://github.com/IDEA-CCNL/Fengshenbang-LM.git
加载模型
from fengshen import T5ForConditionalGeneration
from fengshen import T5Config
from fengshen import T5Tokenizer
tokenizer = T5Tokenizer.from_pretrained('IDEA-CCNL/Randeng-MegatronT5-770M')
config = T5Config.from_pretrained('IDEA-CCNL/Randeng-MegatronT5-770M')
model = T5ForConditionalGeneration.from_pretrained('IDEA-CCNL/Randeng-MegatronT5-770M')
✨ 主要特性
该模型善于处理NLT任务,是中文版的T5-large。
📦 模型分类
属性 |
详情 |
需求 |
通用 |
任务 |
自然语言转换 |
系列 |
燃灯 |
模型 |
MegatronT5 |
参数 |
770M |
额外 |
中文 |
📚 详细文档
为了得到一个大规模的中文版的T5,我们使用了Megatron-LM的方法和悟道语料库(180G版本)用于预训练。具体地,我们在预训练阶段中使用了Megatron-LM 大概花费了16张A100约14天。
📄 许可证
本项目采用Apache-2.0许可证。
📖 引用
如果您在您的工作中使用了我们的模型,可以引用我们的论文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我们的网站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}